bluearXiv-ai 论文精选

2026-04-21

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

cs.LG
197
cs.AI
134
cs.IR
39
cs.CL
192
cs.DS
4
others
330
总计
896

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

others

Nokimul Hasan Arif, Qian Lou, Mengxin Zheng
cs.MA cs.AI

📄 所有论文 ↑ 回顶部

cs.LG

Maksim Zhdanov et al.
cs.LG cs.AI cs.CV physics.ao-ph
本文提出了一种名为Mosaic的概率性天气预报模型, 旨在解决基于机器学习的天气预报中两个主要的频谱退化来源: 确定性训练和压缩编码造成的信息瓶颈. 该模型通过学习的函数扰动生成集合成员, 并利用一种硬件对齐的块稀疏注意力(block-sparse attention)机制在原生分辨率网格上运行, 该机制通过跨空间相邻查询共享键和值, 以线性成本捕获长程依赖关系. 在1.5°分辨率下, Mosaic在关键高空变量上的表现与使用6倍更精细数据训练的模型相当或更优, 并生成了校准良好的集合预报, 其单个成员在所有已解析频率上均展现出近乎完美的频谱对齐.
Vladimer Khasia
cs.LG
本文提出了一种名为BASIS的高效反向传播算法, 旨在解决深度神经网络训练中激活内存随深度、上下文长度和特征维度线性增长的瓶颈问题. 该方法通过使用压缩的秩-R张量计算权重更新, 并引入Balanced Hashing和Invariant Scalars机制来稳定梯度估计, 从而在显著减少内存和计算开销的同时, 实现与精确反向传播相当的训练效果.
Xingsheng Chen et al.
cs.LG cs.AI
本文提出了一个名为UniMamba的统一时空建模框架,用于多元时间序列预测。该框架结合了高效的state-space模型与attention机制,旨在同时捕获全局时间依赖性和变量间的交互关系,并在多个基准数据集上展示了其准确性与计算效率。
Brady Steele
cs.LG cs.CL
本文通过分析 annotation entropy 与 per-example area under the loss curve (AULC) 的相关性, 研究了 LoRA fine-tuning 中的 per-example learning dynamics. 研究发现, 在存在高标注者分歧的 contested examples 上, LoRA fine-tuning 会出现 loss 上升的 "un-learning" 现象, 这一模式在 full fine-tuning 中基本不存在.
Pegah Ahadian et al.
cs.LG cs.AI
本文提出了一个用于膝关节骨关节炎临床决策支持的多模态框架. 该框架结合了机器学习预测模型与基于工具的多智能体推理系统, 通过计算疼痛与结构损伤之间的不一致性分数, 来辅助临床表型分类和管理建议生成.
Alizishaan Anwar Hussein Khatri
cs.LG cs.AI
本文探讨了利用 differential privacy 来防止深度神经网络中的 overfitting 问题, 旨在提升模型在未见数据上的泛化能力.
Jiawei Huang et al.
cs.LG cs.AI cs.SE
本文提出了一种基于评分标准的生成式奖励模型(GRM), 用于为软件工程任务中的强化微调提供更丰富的学习信号. 该方法通过人工设计的评分标准来引导和过滤智能体的行为轨迹, 从而在最终测试准确率上超越了仅依赖终端奖励的方法.
Haolong Hu et al.
cs.LG cs.CL
本文提出了一种名为SaFeR-Steer的多轮对齐框架,用于提升多模态大语言模型(MLLMs)在多轮对话中的安全性。该方法结合了分阶段的合成数据引导和基于反馈的强化学习,并引入了一个新的多轮安全数据集。实验表明,该方法能有效提升模型在单轮和多轮安全基准上的性能。
Nikola Jovišić, Milica Škipina, Vanja Švenda
cs.LG cs.AI cs.CV
本文提出了一种名为SetFlow的生成架构, 用于直接在表示空间中建模Multiple Instance Learning (MIL)中的整个包(即集合). 该方法结合了flow matching和Set Transformer的设计, 能够处理置换不变的输入并捕获包内实例间的交互. 在大型乳腺X光检查基准测试中, 生成的样本与原始数据分布高度匹配, 并能有效提升下游分类任务的性能.
Ruize Xia
cs.LG
本文通过匹配学习率的实验设计,对比了Full Fine-Tuning和LoRA在微调CLIP模型时的表现。研究发现,在相同学习率下,LoRA比Full FT能更好地保持模型的零样本迁移能力,并且注意力结构的变化模式也不同。
Yunxiang Guo
cs.LG
本文提出了一种用于事件条件异步融合的条件门控跨模态注意力机制(CGCMA), 旨在解决密集主数据流与偶发外部上下文异步对齐的问题. 该方法在加密货币市场的高频价格序列与滞后网络情报融合的任务上进行了测试, 并构建了相应的评估数据集.
Satchel Grant et al.
cs.LG cs.AI
本文比较了两种防御性训练方法(PPS和IP)在保护语言模型完整性方面的机制差异. 研究发现, 两者通过不同的方式影响模型的梯度, 其中PPS能主动逆转特定特征表达, 而IP的作用机制则更为模糊.
Kutomanov Hennadii
cs.LG
本文提出了一种基于激活区域分析的神经网络功能相似性度量方法. 该方法通过分析神经元激活区域的拓扑结构来克服ReLU网络因参数对称性导致的表示模糊问题, 并利用MinHash等技术实现高效计算.
Jinmyeong Choi, Brad Shook, Artur Dubrawski
cs.LG cs.AI stat.ML
本文探讨了时间序列基础模型(TSFMs)嵌入空间中的非平稳性概念, 将其与经典统计过程控制(SPC)中的定义联系起来. 研究在受控条件下分析了均值偏移、方差变化和线性趋势等分布非平稳性在嵌入空间中的线性可探测性, 并考察了由持续性引起的时序非平稳性. 实验发现, 非平稳性的可探测性会平滑下降, 且不同模型表现出特定的失效模式.
Ping Wang
cs.LG cond-mat.dis-nn cs.AI nlin.AO
本文提出了一种名为TDU-OFC的离线雪崩探测方法, 用于分析深度神经网络在"顿悟"(grokking)现象中的动力学相变. 该方法通过梯度快照计算级联统计量, 并提取出一个宏观可观测量——随时间演化的有效级联维数\(D(t)\). 研究发现, 在Transformer和MLP模型中, 该维数在泛化转变点附近会穿越高斯扩散基线\(D=1\), 且穿越方向与任务相关.
Jelena Markovic-Voronov et al.
cs.LG cs.AI stat.ML
本文提出了一种基于奖励引导的无训练解码框架, 通过结合模型转移概率和奖励势能定义序列级目标分布, 并采用Sequential Monte Carlo算法进行采样. 实验表明该方法在代码生成和数学推理任务上显著提升了大型语言模型的性能.
Eunjeong Park, Amrita Basak
cs.LG cond-mat.mtrl-sci
本文提出了一种基于物理信息图注意力网络(GAT)的方法, 用于快速预测Ag-Bi-Cu-Sn合金体系的多标签相图. 该方法将成分-温度点表示为元素图, 结合热力学约束进行相集合预测, 在多个子系统上取得了高精度, 并展示了良好的泛化能力.
Qi Zhang
cs.LG cs.RO
本文提出了一种名为PODPO的在线强化学习生成式策略优化方法。该方法避免了传统方法对梯度裁剪和负样本惩罚的依赖,通过利用正优势样本和局部对比漂移来更新策略。
Jack T. Beerman et al.
cs.LG cs.AI
本文提出了一种名为G-PARC的图神经网络方法, 用于在非结构化网格上预测时空动力学. 该方法通过嵌入移动最小二乘核来近似空间导数, 并在多个非线性基准测试中展现了优于现有图方法的性能.
Divya Shyamal et al.
cs.LG cs.AI
本文提出了一种名为SCATR的轻量级测试时排序方法,用于提升大语言模型在推理任务中的表现。该方法通过一个小型校准集学习评分器,在代码和数学推理基准上取得了效率与精度的良好平衡。
Anna Mazhar, Sainyam Galhotra
cs.LG cs.AI
本文讨论了机器学习模型在数据删除(即machine unlearning)后如何进行可靠测试的软件工程挑战. 作者提出了一种基于因果推断的测试视角, 旨在以可调试和成本效益高的方式检测模型是否仍残留对目标信息的依赖.
Jingke Chen et al.
cs.LG cs.AI
本文提出了一个名为PWRules的可解释性框架,用于预测蛋白质与小分子的互补配对规则。该框架通过识别小分子片段及其与蛋白质语义序列单元的配对规则来预测结合亲和力,并在基准测试中取得了与现有方法相当的性能。
Masakazu Yoshimura et al.
cs.LG cs.AI cs.CV
本文提出了一种名为LLMasTool的层次化树结构NAS框架, 将LLM作为工具而非智能体使用. 该方法通过从代码中挖掘可重用模块并表示为树结构, 结合算法规划与LLM辅助的树变换进行架构演化, 在多个数据集上取得了性能提升.
Yuming Yan et al.
cs.LG cs.CL cs.CV
本文提出了一种名为S-GRPO的统一后训练框架,用于大型视觉语言模型。它通过结合监督学习和偏好优化,旨在解决现有方法在适应特定视觉任务时存在的效率低下和优化崩溃问题。
Zhixiong Yang et al.
cs.LG
本文提出了一种基于扩散模型的跨模态生成方法RF-CMG, 利用数据丰富的WiFi信号来合成数据稀缺的毫米波和RFID信号. 该方法通过解耦高频引导和低频约束来生成高质量数据, 并在手势识别任务中验证了合成数据的有效性.
Jiaoyang Ruan et al.
cs.LG cs.AI
本文提出了一种用于评估扩散大语言模型(dLLMs)推理轨迹正确性的几何视角"Reasoning on the Manifold"和一种无需训练的无监督度量Bidirectional Manifold Consistency (BMC). 该方法通过前向掩码与后向重建的循环来量化生成序列的稳定性, 并展示了其在诊断、推理和模型对齐等任务中的有效性.
Zhijiang Tang et al.
cs.LG cs.AI
本文指出了当前DNA序列预训练研究中被忽视的三个关键问题, 包括下游数据集选择, 邻接掩码策略的固有缺陷以及词汇表讨论的缺失. 作者通过实验验证了这些问题的重要性, 并提出了相应的指导原则和一个标准化的测试平台.
Kemal Bayik et al.
cs.LG
本文提出了一种身份无关的多用户WiFi感知方法, 将活动识别重新定义为活动计数问题. 该方法通过预训练的卷积主干网络提取特征, 并在未见过的用户场景下表现出更稳定的性能.
Xingyan Chen et al.
cs.LG cs.AI
本文提出了一种名为FedOBP的联邦最优大脑个性化算法, 通过引入基于分位数的阈值机制和逐元素重要性评分, 来决定联邦学习模型中哪些参数应被个性化. 该方法将重要性度量的计算从客户端移至服务器端, 以减轻资源受限设备的负担, 并在多个数据集上展现了优于现有方法的性能.
Yasmin Souza Lima et al.
cs.LG cs.AI
本文提出了一个轻量级决策框架, 用于在训练前为DDoS流量异常检测选择时间特征或结构特征. 该框架使用两个诊断指标, 并在指标不确定时保留混合选项. 实验表明, 在所测试的数据集上, 结构特征的表现通常优于时间特征.
Fangyuan Liu et al.
cs.LG cs.AI
本文提出了一种名为EviDep的evidential learning框架, 用于抑郁症自动评估. 该框架通过Normal-Inverse-Gamma分布联合量化抑郁严重程度及不确定性, 并设计了频率感知特征提取和disentangled evidential learning策略来减少多模态证据冗余, 在多个数据集上实现了先进的预测准确性和不确定性校准.
Agnieszka Pregowska, Stefan Marynowicz
cs.LG cs.AI
本文提出了一种基于连续轨迹表示的锂离子电池老化分析统一框架, 用于从异构数据集中提取退化描述符并进行剩余使用寿命预测. 该框架在跨数据集评估中表现出稳健性, 但受限于实验室规模数据和基于容量的寿命终点定义.
Mahir Labib Dihan et al.
cs.LG cs.AI
本文针对Capacitated Vehicle Routing Problem (CVRP), 改进了Neural Combinatorial Optimization (NCO)框架中的推理技术. 通过将Simulated Annealing (SA)融入Random Re-Construct (RRC)方法, 以及将Beam Search整合到POMO方法中, 提升了解决方案的质量和模型的泛化能力.
Shaoang Li, Jian Li
cs.LG cs.AI
本文研究了在边缘设备上部署大语言模型时, 如何联合优化LoRA适配器的缓存与请求路由问题. 作者将其建模为一个双时间尺度的上下文赌博机问题, 并提出了POLAR算法, 通过实验验证了自适应缓存控制的有效性.
Noureddine Kermiche
cs.LG cs.AI
本文提出了Global Neural World Model (GNWM), 一个通过平衡连续熵约束实现拓扑量化的自稳定框架. 该模型将环境映射到离散2D网格上, 避免了自回归过程中的流形漂移, 并能够学习泛化的转移动态.
Zongru Li et al.
cs.LG cs.AI q-bio.QM
本文系统性地综述了深度学习在分子性质预测领域的进展, 涵盖了从量子化学方法到基础模型 (Foundation Models) 的多种范式. 它提出了一个统一的分类法, 并基于对现有基准数据集的分析, 指出了当前在数据划分和评估协议方面的挑战与未来方向.
Jongyeop Kim, Jinki Kim, Doyun Lee
cs.LG cs.AI
本文提出了一种用于结构健康监测的混合谱-时域融合框架, 通过整合到达时间间隔描述符与谱特征来捕捉振动动力学的精细和粗尺度特征. 实验表明该框架在分类准确性和稳定性上优于传统方法.
Xiao Wang et al.
cs.LG cs.AI
本文提出了一种用于地球系统预测的生成式数据同化框架, 核心是名为STORM的线性复杂度全局注意力机制. 该方法在Frontier超级计算机上展示了卓越的可扩展性与计算性能.
Ziwen Liu et al.
cs.LG cs.AI
本文针对LLM遗忘任务中遗忘集与保留集难以获取的实际问题, 提出了数据Pareto改进的概念, 并设计了RASLIK检索算法. 该算法结合了置换投影哈希与随机对极搜索, 在多个模型和数据集上验证了其在质量和效率上的双重提升.
Seerat Kaur, Sukhjit Singh Sehra, Dariush Ebrahimi
cs.LG
本文提出了一种名为FedLLM的隐私保护联邦学习框架, 用于可解释的交通流预测. 该框架结合了领域适配的LLM与联邦学习, 通过交换轻量级LoRA参数在保护数据隐私的同时进行协同训练, 并在非独立同分布数据上展现了良好的预测性能.
Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin
cs.LG cs.AI
本文提出了一种名为CoCo-LoRA的多模态不确定性感知参数高效微调方法。该方法通过音频上下文信号来调节低秩空间中的变分后验,从而为文本预测任务提供对声学因素敏感的异方差不确定性估计。
Arda Fazla et al.
cs.LG math.OC
本文研究了在Blum-Gladyshev (BG-0) 条件(允许方差随距离二次增长)下的非凸随机优化问题。文章建立了信息论下界,并提出了一个名为PASTA的统一算法框架来匹配这些下界。
Montgomery Bohde et al.
cs.LG q-bio.QM
本文提出了一个名为FRIGID的框架, 它使用一种新颖的扩散语言模型, 通过中间指纹表示和确定的化学式, 根据质谱生成分子结构. 该框架在训练时利用了数亿个未标记的结构, 并通过推理时的缩放技术显著提升了在MassSpecGym和NPLIB1等基准测试上的准确性.
Kittipong Thiamchaiboonthawee et al.
cs.LG
本文提出了一个名为FLARE的数据高效代理建模框架, 用于预测定向能量沉积(DED)中的位移场. 该方法通过将模拟编码为隐式神经场并正则化网络权重, 使其遵循输入参数空间的仿射结构, 从而实现对未见参数组合的预测.
Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin
cs.LG cs.AI
本文提出了一种名为CALIBER的多模态不确定性感知参数高效微调框架,用于音频-文本学习。该方法通过跨模态注意力机制调节适配器中的贝叶斯变分后验,在保持计算效率的同时实现了异方差不确定性估计。
Hangke Sui, Yuqing Wang, Minh N Do
cs.LG
本文提出了一个名为UniCon的统一框架, 通过引入对比相似度权重矩阵\(S(\gamma)\), 为基于核方法的对比学习提供了闭式全局解, 从而替代了传统的小批量反向传播. 该框架在核化视角下统一了对比对齐, 并将其与谱方法联系起来.
Argyrios Gerogiannis, Yu-Han Huang, Venugopal V. Veeravalli
cs.LG stat.ML
本文提出了一种用于非平稳分段平稳MDP的模块化强化学习框架DARLING, 它无需预先知道变化点信息. 该算法在表格和线性MDP设定下改进了动态遗憾界, 并在实验中表现优于现有方法.
Koushik Howlader, Md Tauhidul Islam, Wei Le
cs.LG cs.AI
本文提出了一种基于graph transformer的癌症预后预测方法PATH, 它通过调制机制生成患者条件化的基因嵌入, 并利用pathway-guided attention建模通路间的相互作用. 该方法在跨癌种转移预测任务上取得了优于现有基准的性能.
Lena Zellinger et al.
cs.LG stat.CO stat.ML
本文探讨了如何将subtractive mixture models (SMMs) 应用于variational inference (VI) 和importance sampling (IS). 作者设计了相应的期望估计器和学习方案, 并讨论了其带来的稳定性与效率挑战及应对方法.
Xan Carey et al.
cs.LG
本文介绍了一个基于JAX的时序预测库Chronax, 它通过纯函数和可组合变换的设计, 提升了大规模预测任务的可扩展性和执行效率. 该库支持模型无关的conformal不确定性量化, 并能与现代机器学习流程集成.
Eva van Tegelen et al.
cs.LG cs.AI math.DS
本文提出了一种名为Late Fusion Neural Operator的架构, 用于提升PDE求解中参数空间外推的泛化能力. 该方法通过解耦状态动力学与参数效应的学习, 在多个基准PDE上超越了现有方法.
William Howes et al.
cs.LG
本文提出了一种用于不规则几何体边缘可部署虚拟传感的Variable Spiking Graph Neural Operator (VS-GNO). 它结合了spectral-spatial卷积分析与可变脉冲神经元, 旨在平衡能耗与预测精度.
Lei Liu, Jialin Chen, Kathy Macropol
cs.LG
本文探讨了如何将LLM从临床文本中提取的协变量整合到因果推断流程中。通过比较多种整合策略,发现直接增强倾向评分模型效果最佳,而基于文本距离的匹配方法则可能降低估计质量。
Inhyeok Lee et al.
cs.LG cs.AI
本文在固定预训练预算下,系统评估了医疗事件生成模型中输入表示(如量化、编码方式)对下游预测性能的影响。实验表明,融合代码与数值的tokenization等方法能显著提升多项临床结局的预测性能。
Dixi Yao, Tahseen Rabbani, Tian Li
cs.LG cs.AI
本文提出了一种名为 Federation over Text (FoT) 的框架,它借鉴了联邦学习的思想,但操作于语义层面。该框架允许多个处理不同任务的智能体通过共享和聚合推理过程来构建一个通用的元认知洞察库,从而提升后续任务解决的效率和效果。
Zilin Li et al.
cs.LG
本文通过将去中心化学习建模为 Riemannian 流形上的耦合慢-快动力系统,研究了其连续极限。证明了离散动态收敛于一个过阻尼 Langevin 随机微分方程,并分析了权重收敛到空间测度主特征空间的性质。
Sumeet Ramesh Motwani et al.
cs.LG cs.AI
本文提出了一种名为AutoOR的可扩展方法, 用于对大型语言模型(LLMs)进行后训练, 使其能够将自然语言描述的Operations Research(OR)问题自动形式化为可求解的优化模型. 该方法通过合成数据和基于求解器反馈的强化学习来提升模型性能, 在多个OR基准测试上取得了有竞争力的结果.
Chongsheng Zhang et al.
cs.LG cs.AI
本文提出了一个名为RDDG的框架, 用于生成关系型表格数据以改善不平衡分类. 它结合了核心集选择, in-context learning和一个自我强化的反馈机制来优化生成数据的质量.
Yunshan Peng et al.
cs.LG
本文发布了一个用于Reach and Frequency广告库存估计的大规模数据集, 该数据集以"定向-排期-频控"为基本上下文, 提供了同一上下文中多个预算点对应的UV和PV观测值, 从而构成了完整的预算-性能曲线. 该数据集支持对结构性约束学习、单调回归等问题的研究, 并为此提供了标准化的基准任务和可复现的基线方法.
Jiaxin Zhang et al.
cs.LG cs.AI
本文探讨了 on-policy distillation (OPD) 方法在提升语言模型任务准确率的同时,会系统性地导致模型过度自信的问题。作者提出了一个校准感知的 OPD 框架 CaOPD 来缓解此问题,并在实验中验证了其有效性。
Chenwei Zhang
cs.LG cs.AI cs.CV q-bio.BM q-bio.QM
本文探讨了深度生成模型在整合领域知识与深度学习以分析复杂生物学问题中的应用, 聚焦于DNA反应动力学和冷冻电镜两个领域. 研究提出了几个结合特定领域知识的生成模型框架, 用于数据可视化和质量提升.
Akash Samanta, Manish Pratap Singh, Debasis Chaudhuri
cs.LG cs.CV
本文提出了一种名为Class-Conditional Activation Regularization (CCAR)的方法,通过施加一种软性归纳偏置来塑造特征空间的结构。该方法旨在通过几何解缠来提升模型对噪声和对抗性扰动的内在鲁棒性。
Yuchen Pan, Soung Chang Liew
cs.LG
本文提出了一个用于训练和评估大型语言模型作为自主交易代理的结构化框架. 该框架包含一个精心策划的多选题数据集和一个结合了静态测试与模拟交易的两阶段评估协议. 实验表明, 使用该框架训练的模型能展现出具有竞争力的风险感知交易行为.
Nils Leutenegger
cs.LG q-bio.NC
本文通过Representational Similarity Analysis (RSA) 比较了四种学习规则(backpropagation, feedback alignment, predictive coding, spike-timing-dependent plasticity)训练的CNN与人类V1视觉皮层表征的相似性。研究发现,在早期视觉区域(V1/V2),网络架构而非学习规则主导了与皮层表征的对齐。
Zhongyuan Liang et al.
cs.LG
本文提出了一种用于ICU风险预测的两阶段框架OC-Distill. 该方法在训练时结合了本体感知的对比学习和跨模态知识蒸馏, 在推理时仅需生命体征数据.
Junnan Liu et al.
cs.LG cs.AI
本文提出了一种名为SinkRouter的、无需训练的选择性路由框架,用于加速大语言和多模态模型的长上下文解码。该方法基于对attention sink现象的机制性理解,通过检测sink信号来跳过产生接近零输出的计算,并实现了硬件感知的加速内核。在多个长上下文基准测试中,该方法在保持准确性的同时,显著提升了解码速度。
Yuheng Zhao et al.
cs.LG math.OC
本文提出了一种名为GRASP的通用网格搜索框架, 结合新颖的self-bounding分析技术, 旨在实现完全无参数的随机优化. 该方法在非凸和凸优化问题上均展现了良好的性能.
Hiroki Hasegawa, Aoba Tamura, Yukihiko Okada
cs.LG stat.ME stat.ML
本文提出了一种新的估计方法, 用于解决在样本量\(n\)小于变量数\(p\) (\(p>n\)) 的小样本设定下, 基于协方差的结构方程模型 (SEM) 因样本协方差矩阵奇异而无法进行似然估计的问题. 该方法通过重构协方差结构并结合相对误差约束, 实现了对结构参数符号和方向的稳定估计.
Yingzhi Xia et al.
cs.LG cs.AI cs.CV
本文提出了一种名为 Noise-space Hamiltonian Monte Carlo (N-HMC) 的后验采样方法, 用于解决基于 diffusion models 的逆问题. 该方法将反向扩散过程视为从初始噪声到干净图像的确定性映射, 从而在初始噪声空间中进行推理, 避免了流形不可行性问题. 实验表明, 该方法在多种线性和非线性逆问题上取得了优于现有方法的重建质量.
Gabriel Jason Lee, Jathurshan Pradeepkumar, Jimeng Sun
cs.LG cs.AI eess.SP
本文系统评估了多种 test-time adaptation (TTA) 方法在 EEG foundation models 面对真实分布偏移时的表现。研究发现,标准的 TTA 方法效果不稳定,而无需优化的方法则表现出更好的鲁棒性。
Junlin Li et al.
cs.LG cs.AI
本文提出了一种无需训练和数据的delta压缩方法D-QRELO, 用于压缩大规模语言模型(LLM)微调后产生的权重增量(delta). 该方法结合了粗粒度1-bit量化和残差低秩近似, 在多个模型和任务上优于现有方法.
Yun-Peng Li, Hans-Andrea Loeliger
cs.LG eess.SP stat.ME
本文提出了两种互为对偶的新算法, 用于计算状态空间设定下的L1正则化路径. 这些算法基于参数化高斯消息传递, 适用于独立变量和依赖变量的L1正则化问题.
Sai Vegasena
cs.LG
本文提出了一种在Apple Silicon上实现融合压缩域attention的方法, 显著降低了长上下文LLM推理的KV cache内存占用和计算开销. 该方法通过直接在int4压缩的KV cache上计算attention, 避免了中间反量化步骤, 在保持预测准确性的同时提升了推理速度.
Tianyi Chen et al.
cs.LG cs.CV
本文提出了一种用于不完整多视图聚类的方法, 通过在Poincaré ball中构建结构感知的潜在空间来增强表示学习. 该方法设计了双约束双曲对比机制和一个双曲原型头, 以解耦细粒度语义关联并纠正数据恢复过程.
Bruce A. Bassett et al.
cs.LG cs.AI
本文在真实世界低收入和中等收入国家(LMIC)的住院患者数据集上,评估了十种多模态大语言模型(LLMs)的诊断性能。研究发现,尽管模型成本差异巨大,但其诊断表现相近,且均显著优于常规病房诊断,其中GPT-5.1表现最佳。
Carson Dudley et al.
cs.LG cs.AI
本文研究了transformer模型在非平稳序列数据中进行in-context learning时,对数据生成过程突变(regime change)的检测与适应能力。作者通过理论构造和实验验证,证明了transformer能够解决in-context change-point detection问题,并在合成与真实世界任务中展示了其有效性。
Jason Yoo et al.
cs.LG cs.AR cs.NE
本文通过在实际边缘GPU硬件(Jetson Orin Nano)上部署和对比VS-WNO与密集WNO模型, 研究了脉冲稀疏性在商用软件栈中是否能转化为实际部署优势. 实验结果表明, 尽管VS-WNO在算法层面具有显著的脉冲稀疏性, 但由于运行时未能有效抑制密集计算, 其推理延迟和能耗反而高于密集模型.
Ji-Eun Byun, Hyeuk Ryu, Junho Song
cs.LG math.PR
本文提出了一种名为Reference-state System Reliability (RSR)的新方法,用于高效量化coherent systems的可靠性。该方法利用reference states对Monte Carlo样本进行分类,并通过矩阵运算实现高效计算,显著提升了大规模系统评估的速度。
Dongkyu Cho et al.
cs.LG
本文提出了一种名为Tree of Concepts的可解释持续学习框架,用于处理非平稳临床数据。该方法通过一个固定的、基于规则的概念接口来分离概念提取和预测,从而在适应分布变化的同时保持解释的稳定性。在多个医疗基准测试中,该方法在稳定性与可塑性之间取得了优于现有基线的平衡。
Noel Brindise, Cedric Langbort, Melkior Ornik
cs.LG
本文提出了一种名为 Live LTL Progress Tracking 的新框架, 用于在强化学习中追踪智能体执行复杂任务时的进度. 该框架通过一个随时间步更新的'tracking vector'来表示有限线性时序逻辑(LTL)公式的满足状态, 为设计新的性能指标和奖励函数提供了潜在工具.
Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu
cs.LG cs.AI
本文讨论了Transformer模型在动态状态跟踪方面的局限性, 指出其纯前馈架构难以处理序列依赖, 导致状态信息在层间推移并最终耗尽模型深度. 作者主张转向循环架构以实现更高效的状态跟踪, 并提出了一个相关架构的分类法.
Rohan Patil, Henrik I. Christensen
cs.LG cs.RO
本文提出了一种名为BOIL的可扩展方法, 用于从环境结构中提取有价值的信息以指导智能体行为. 该方法结合Pagerank算法和公共信息最大化, 在覆盖, 巡逻等任务中展示了优于启发式方法的长期性能.
Remy Kim et al.
cs.LG
本文提出了一个名为SeekerGym的基准测试,用于评估AI智能体在信息检索任务中的完整性。该基准通过让智能体从文档中检索相关段落来衡量其性能,并指出当前最佳方法仍有很大改进空间。
Khemraj Shukla et al.
cs.LG physics.comp-ph
本文针对湍流建模中的不确定性量化问题, 评估了Physics-informed neural networks (PINNs)的几种概率扩展方法. 这些方法包括Bayesian PINNs, Monte Carlo dropout以及repulsive deep ensembles, 并在Van der Pol oscillator和圆柱绕流等案例上进行了测试.
Meghana Kshirsagar et al.
cs.LG cs.AI q-bio.BM
本文提出了一种名为RosettaSearch的推理时多目标优化方法, 用于蛋白质序列设计. 该方法结合大型语言模型(LLMs)与结构预测模型RosettaFold3的反馈进行搜索, 在多个基准测试中显著提升了序列的结构保真度与设计成功率.
Jayadev Billa
cs.LG
本文研究了 fine-tuning 过程中网络表征变化的深度分布特性. 通过大量实验发现, 这种变化通常集中在靠近输出的层, 并且其分布形态受到模型架构、规模和训练目标的显著影响.
Nikunj Gupta, Rajgopal Kannan, Viktor Prasanna
cs.LG
本文探讨了使用大型语言模型(LLM)为多智能体强化学习(MARL)生成协调图先验的方法. 该方法通过自然语言描述智能体观察来推断潜在的协调模式, 并将生成的图结构整合到基于图神经网络(GNN)的MARL算法中, 在多个合作场景中进行了评估.
Enoch Hyunwook Kang
cs.LG cs.AI cs.CC cs.CL
本文研究了在线对齐方法中贪婪更新策略的理论有效性. 通过分析传统的零温度后悔准则, 作者证明了在线RLHF和DPO等方法能够达到常数级的累积后悔, 从而为其实践中的高效性提供了更精确的理论解释.
Thong Bach, Truyen Tran
cs.LG
本文提出了一种名为safety token regularization (STR)的轻量级方法, 旨在解决大语言模型(LLM)在特定领域微调时安全对齐性能下降的问题. 该方法通过约束与安全拒绝模板相关的logits来维持模型的安全行为, 计算开销小且易于集成到现有微调流程中.
Thong Bach et al.
cs.LG
本文提出了一种基于梯度的样本选择方法, 用于在持续微调大语言模型时维持其安全对齐性. 该方法通过过滤高梯度样本来减少安全性能的退化, 同时保持任务学习能力.
Ege Çakar, Ketan Ali Raghu, Lia Zheng
cs.LG stat.ML
本文研究了 Tiny Recursive Models (TRMs) 激活空间的几何结构, 发现其在递归展开过程中占据一个有效的低维线性子空间. 基于此, 作者提出了 LASER 框架, 通过动态低秩压缩来节省激活内存, 而不会显著影响模型精度.
Qingwei Lin
cs.LG
本文通过实证研究,探讨了在条件深度路由(conditional depth routing)训练中,不同辅助损失(auxiliary losses)之间的相互作用。研究发现,在当前的训练方案下,常用的基于预测的辅助损失(如效用回归和成对排序监督)可能对整体优化产生负面影响,移除它们反而能提升模型性能并显著降低计算成本。
Zixin Zhou et al.
cs.LG cs.AI cs.ET physics.app-ph
本文提出了一种基于metacircuit架构的完全模拟谐振递归神经网络(R\(^2\)NN). 该架构通过耦合的电路谐振器实现了对训练后网络参数的物理映射, 能够直接处理原始模拟信号并进行实时分类.
Sajjad Ghiasvand et al.
cs.LG
本文提出了一种名为REALM的无监督方法, 用于在存在噪声标注的情况下微调语言模型. 该方法通过为每个标注者学习一个专长值或矩阵, 将观测标签建模为模型预测与随机猜测的混合, 从而在多个问答基准测试中提升了模型性能.
Marcel Kollovieh, Sirine Ayadi, Stephan Günnemann
cs.LG
本文提出了一种名为IDDM的插值离散扩散模型, 通过引入可控重采样机制来减少对中间隐状态的依赖, 从而改善离散扩散模型的生成质量. 该模型在分子图生成和文本生成任务上展现了有竞争力的性能.
Zhiyin Yu et al.
cs.LG cs.AI
本文是一篇关于数据稀缺环境下大语言模型强化学习的综述, 提出了一个围绕数据、训练和框架三个视角的层次化分类框架, 并对现有方法进行了系统梳理和优缺点分析.
Dongxin Guo, Jikun Wu, Siu Ming Yiu
cs.LG cs.AI
本文提出了一种名为 SigGate-GT 的图 Transformer 模型,通过引入 Sigmoid 门控机制来缓解过平滑问题。该方法在多个标准图基准测试上取得了具有竞争力的性能。
Fei Ding et al.
cs.LG cs.AI
本文针对序列级相对强化学习中的长度问题提出了新的分析视角. 作者认为核心问题在于训练中使用的比较单元缺乏可比性, 并提出了一个基于样本构建的训练框架, 旨在主动生成可对齐的等长训练片段. 文中提出的EqLen方法适用于GRPO等算法.
Jingzhou Jiang et al.
cs.LG cs.CL
本文提出了一种无需任务特定标签的嵌入模型评估方法 FLARE, 该方法利用归一化流直接估计信息充分性, 避免了高维空间中的密度估计问题. 实验表明, 该方法在多个数据集和嵌入模型上取得了与有监督基准高度相关的稳定评估结果.
Ou Wu
cs.LG
本文提出了一个统一的 data-parameter correspondence 框架,将大语言模型优化中的数据操作和参数操作联系起来。该框架基于统计流形 \(\mathcal{M}\) 上的几何结构,揭示了数据剪枝与参数稀疏化、上下文学习(ICL)与低秩适应(LoRA)等在几何上的对偶性。
Kadir-Kaan Özer, René Ebeling, Markus Enzweiler
cs.LG
本文提出了一种名为JuRe的极简去噪网络用于时间序列异常检测. 该方法仅使用一个深度可分离卷积残差块, 通过修复被破坏的时间序列窗口进行训练, 并在推理时使用无参数的结构差异函数进行评分. 实验表明, 尽管结构简单, 该方法在多个基准测试中取得了与复杂神经网络基线相当甚至更优的性能, 证明了去噪目标而非网络容量是驱动检测质量的关键因素.
Masahiro Nomura, Ryoki Hamano, Isao Ono
cs.LG cs.NE
本文为基于遗传编程的符号回归模型提供了泛化界分析. 该工作将泛化误差分解为结构选择项和常数拟合项, 为理解其泛化性质提供了理论视角.
Jeongjae Lee et al.
cs.LG cs.AI cs.CV
本文提出了reward score matching (RSM)框架, 统一了基于奖励的扩散模型和flow模型的微调方法. 该框架将不同方法的核心差异归结为价值引导估计器的构建和时间步优化强度的选择, 从而简化了设计空间并提升了效率.
Keyang Chen et al.
cs.LG cs.AI cs.SI
本文提出了一个用于反洗钱研究的高保真图基准TransXion, 它通过整合具有实体画像的正常活动模拟和随机的非法活动合成, 克服了现有基准数据语义稀疏和依赖模板注入的局限性. 该数据集包含丰富的实体属性, 能更真实地评估模型在检测与实体背景不符的异常活动时的性能.
S. Gratton, Ph. L. Toint
cs.LG
本文提出了一个用于非凸无约束优化的自适应一阶优化算法的统一框架, 该框架使用自适应预处理的梯度, 并包含了多种流行方法. 在合理的梯度方差假设下, 该工作为框架内所有方法提供了完整的随机全局收敛率分析.
Chanik Kang, Hyewon Suk, Haejun Chung
cs.LG physics.optics
本文提出了一种基于 Fourier Neural Operator 的 Neural Adjoint Method,用于加速超光学器件的三维逆向设计。该方法通过预测伴随梯度场,显著减少了迭代优化过程中全波仿真的计算成本。
Vedanta Thapar, Abhinav Gupta
cs.LG
本文提出了一种结合物理结构的神经网络架构, 用于从稀疏、噪声数据中学习Hamiltonian动力系统. 该方法避免了时间导数估计, 并能支持后续的符号方程发现.
Ciaran Bench
cs.LG
本文提出了一种基于决策理论不确定性量化的方法, 用于评估深度生成模型在领域适应任务中生成数据的可信度. 该方法通过下游分类器的性能来形式化评估生成输出的质量, 并以光电容积脉搏波信号去噪和心房颤动分类为案例进行了验证.
Marcin Kostrzewa, Maciej Zięba, Jerzy Stefanowski
cs.LG cs.AI
本文提出了一种基于概率共识的鲁棒反事实解释方法, 通过联合建模数据分布与模型决策空间来应对模型微小变动导致解释失效的问题. 该方法利用模型集成上的概率共识训练条件归一化流, 并通过单一可解释参数在推理时控制鲁棒性水平, 实验表明其在保持其他评估指标的同时实现了优越的经验鲁棒性.
Mattie Ji, Indradyumna Roy, Vikas Garg
cs.LG math.AT stat.ML
本文提出了一种结合图收缩操作的拓扑描述子, 用于增强图神经网络的表达能力. 该方法通过交错进行图的包含与收缩序列来构建新的拓扑特征, 并设计了可微分的算法实现.
Franki Nguimatsia Tiofack et al.
cs.LG cs.AI
本文提出了一种名为生存价值学习(SVL)的、用于目标条件强化学习(GCRL)的概率方法。它将问题重构为生存学习,通过建模从每个状态到目标的剩余时间分布来估计价值函数,并在离线基准测试中展示了有效性。
Yujia Zheng et al.
cs.LG math.ST stat.ML
本文提出了 diverse dictionary learning 问题, 用于在仅给定观测数据 \(X = g(Z)\) 且生成过程 \(g\) 未知的情况下, 探索在无法完全识别潜在变量 \(Z\) 时, 哪些结构信息仍能被可靠地恢复. 作者证明了即使没有强假设, 与观测相关的潜在变量的交集、补集和对称差等集合论结构, 以及依赖关系, 在适当的不可确定性下仍然是可识别的. 这些结果可以通过集合代数组合, 构建对隐藏世界的结构化理解, 并在结构多样性足够时导向完全可识别性. 理论分析表明, 这些可识别性优势来源于一个简单的归纳偏置, 该偏置可以轻松集成到大多数模型中.
Liangzu Peng et al.
cs.LG math.ST
本文研究了持续学习(Continual Learning, CL)中任务依赖性的理论建模,针对非线性回归任务,假设当前任务数据是先前数据的非线性变换。在此模型下,作者为几种实用的CL范式(包括经验回放、数据依赖/独立的权重与正则化)提供了统计恢复保证,即估计误差的界。这些结果在先前工作给出空洞界限的情况下具有信息量。
Paul M. Thompson
cs.LG cs.AI q-bio.NC
本文提出了一个基于数据协方差算子谱结构的可发现性标度律框架, 将许多性能指标与累积信噪比能量联系起来. 该框架预测了不同模型在不同数据规模下的性能交叉现象, 并应用于多模态生物医学数据分析.
Md Mezbahul Islam et al.
cs.LG cs.AI
本文提出了一个用于帕金森病严重程度分期的机器学习框架STEP-PD, 它整合了多模态临床评估数据, 并利用SHAP方法增强模型的可解释性. 该框架在PPMI数据集上实现了高精度的分期分类.
Shashank Mishra et al.
cs.LG
本文提出了一种用于时间序列异常检测根因分析的条件归因框架. 该方法通过检索与异常观测上下文相似的正常状态作为基线, 避免了不现实的扰动, 从而生成更可靠的解释. 实验表明该方法在多个基准数据集上提高了根因识别的准确性和鲁棒性.
Swattik Maiti, Ritik Pratap Singh, Fardina Fathmiul Alam
cs.LG
本文提出了一种用于信用违约预测的特征分组感知堆叠框架STRIKE. 该框架将特征空间划分为语义组, 在各组内独立训练模型, 再通过元学习器集成预测, 在多个真实数据集上取得了优于基线方法的AUC-ROC性能.
Christian Lysenstøen
cs.LG cs.DC cs.PF
本文提出了一种名为SLO-Guard的自动调优器,用于在满足延迟服务级别目标(SLOs)的条件下部署大型语言模型(LLM)。该方法将配置崩溃视为重要观测,并结合了分阶段的探索与利用策略,旨在更一致地利用给定的调优预算来寻找可行的配置。
Gareth Seneque et al.
cs.LG cs.AI cs.CL
本文提出了一种名为ATLAS的几何分析方法, 用于追踪"宪法"条件化后训练在模型表示几何中引发的结构化扰动. 该方法通过定义局部图表来测量其切结构, 占用分布和行为耦合在系统变化下的情况, 并展示了这种几何结构可以在不同模型和生物神经扰动数据中被重新识别.
César Ojeda et al.
cs.LG stat.ML
本文提出了一种用于药代动力学的生成基础模型, 能够在无需手动调参的情况下进行零样本群体合成和个体预测. 该方法通过显式地以整个研究群体的稀疏、不规则数据为条件来学习函数向量场, 从而生成一致的虚拟队列并对部分观测的患者轨迹进行具有校准不确定性的预测.
Joon Hyeok Kim et al.
cs.LG
本文研究了 diffusion models 在 modular addition 任务上的 grokking 现象. 通过分析两种数据模式下的内部计算机制, 揭示了模型如何将连续像素生成与离散符号推理相结合.
Dongxin Guo, Jikun Wu, Siu Ming Yiu
cs.LG cs.AI
本文提出了SafeAnchor框架, 用于防止大语言模型在持续领域适应过程中的安全性累积侵蚀. 该方法通过识别LoRA参数空间中的低秩安全子空间并约束领域特定更新, 在多个基准测试中有效保持了原始安全对齐性能.
Shripad Deshmukh et al.
cs.LG cs.AI cs.MA
本文提出了一种用于顺序合作团队中反事实信用分配的框架CAPO. 它通过定义Sequential Aristocrat Utility (SeqAU)来分解团队奖励, 并推导出无需critic的策略梯度算法, 在模拟实验中验证了其有效性.
Libo Sun et al.
cs.LG cs.CL
本文提出了一种名为MoE-nD的混合专家框架, 用于对LLM推理中的KV cache进行多维压缩. 该方法通过离线贪婪求解器为不同层分配不同的eviction和quantization策略组合, 在全局内存预算下实现更优的压缩效果. 实验表明, 该方法在长上下文任务上能实现高压缩率的同时保持模型质量, 但对于短输入任务提升有限.
Prashant C. Raju
cs.LG cs.CL
本文提出了一种基于表示稳定性(representational stability)的几何诊断方法,用于预测语言模型的可操控性(steerability)和检测其内部表示的漂移(drift)。研究发现,有监督的任务对齐稳定性可有效预测线性操控性,而无监督的稳定性则更擅长于检测模型在训练后对齐过程中发生的表示变化。
Kunyu Zhang et al.
cs.LG
本文提出了一种用于fMRI精神病诊断的多视图信息瓶颈框架, 通过引入\(O\)-information来建模高阶脑交互. 该方法融合了成对、三元和四元交互, 并在多个基准数据集上取得了优于现有方法的性能.
Yuzhe Fu et al.
cs.LG cs.CV
本文提出了一种名为FlashFPS的硬件无关框架,通过剪枝和缓存技术来加速点云处理中的Farthest Point Sampling (FPS)操作。该方法在GPU和专用加速器上均实现了显著的推理速度提升,且精度损失可忽略。
Chenming Tang et al.
cs.LG cs.CL
本文提出了一种名为TRUSTEE的数据无关方法, 用于训练工具调用智能体. 该方法仅使用小型开源语言模型动态生成模拟环境, 无需额外标注数据或商业模型资源.
Deyi Wang, Qining Zhang, Lei Ying
cs.LG
本文提出了一种用于联邦学习环境下资源受限智能体的高效RLHF算法Par-S\(^2\)ZPO. 该算法基于带二元扰动的零阶优化, 在通信, 计算和内存开销上具有优势, 并在实验中优于基于FedAvg的RLHF方法.
Lixian Chen, Jianhong Tan
cs.LG cs.CL
本文提出了一种名为HiP-LoRA的频谱感知适应框架,用于解决LoRA在微调中存在的频谱干扰问题。该方法通过将低秩更新分解到主通道和残差通道,并利用稳定性预算来平衡任务适应与预训练能力保留,在持续调优等任务中表现优于基线方法。
Pranshav Gajjar et al.
cs.LG
本文提出了一种名为LLM-AUG的数据增强框架,利用大型语言模型(LLMs)的上下文学习能力,在学习的嵌入空间中直接生成合成训练样本。该方法在调制分类和干扰分类任务上进行了评估,在低样本量场景下表现优于传统数据增强和深度生成基线。
Pranshav Gajjar, Vijay K Shah
cs.LG
本文提出了TeleEmbedBench, 一个专门为电信领域设计的、多语料库的embedding模型评测基准. 该基准包含三个异构语料库, 并通过一个自动化的LLM pipeline构建了大规模的评测数据集, 评估了多种embedding模型在电信文档检索任务上的性能.
Junyi Yao, Zihao Zheng, Jiayu Long
cs.LG cs.AI cs.GT
本文研究了基于MLE的排序系统在对抗性数据扰动下的脆弱性. 作者提出了一种高效的攻击方法, 并在实验中观察到排名结果对结构化扰动存在显著的敏感性.
Kijung Jeon, Michael Muehlebach, Molei Tao
cs.LG stat.CO stat.ML
本文提出了一种在非凸可行集上处理等式与不等式约束的扩散模型统一框架, 引入了高效的landing机制来替代投影, 并利用欠阻尼动力学加速混合. 该方法在多个基准测试中在保持样本质量的同时显著降低了计算成本.
Yan Xie et al.
cs.LG cs.AR
本文介绍了一种名为M100的面向通用AI计算的数据流并行架构, 其通过编译器-架构协同设计来编排计算和数据移动. 该架构以tensor为基本数据单元, 在自动驾驶和大型语言模型等推理任务中展现了优于GPGPU的性能和效率.
Yuyan Zhou et al.
cs.LG cs.AI
本文提出了一种名为LEPO的新框架, 将强化学习直接应用于大型语言模型的连续潜在表示. 该方法通过引入可控随机性来增强推理路径的多样性, 并在实验中显示出优于现有方法的性能.
Yubai Wei, Chen Wu, Hashem Haghbayan
cs.LG cs.AI cs.RO
本文探讨了在Vision-Language-Action (VLA) 模型训练中引入显式的物理可行性监督(如避障、运动学可行性)是否能提升策略性能。通过一个基于几何的可行性目标,并将其集成到基于扩散的VLA策略训练中,实验表明该方法能提高物理可靠性、任务性能以及在低数据情况下的学习效率。
Hongyu Zhan et al.
cs.LG cs.AI
本文提出了一种名为LoReC的即插即用方法, 旨在解决大型语言模型(LLMs)在处理图数据时表现不佳的问题. 该方法通过重新分配注意力, 在图信息注入以及对比解码等步骤来增强LLM对图结构的理解, 并在多个数据集上取得了优于现有图学习方法的性能.
Muhammed Emrullah Ildiz et al.
cs.LG cs.AI
本文提出了一种用于多轮尝试推理的校准强化学习方法. 该方法通过设计一种无偏的加权策略来优化验证奖励, 并在合成与真实数据上验证了其有效性.
Xiaoyuan Cheng et al.
cs.LG cs.RO
本文提出了一种名为Fisher Decorator的方法, 用于改进基于流匹配(flow matching)的离线强化学习策略. 该方法将策略优化重新表述为一个由Fisher信息矩阵引导的局部传输问题, 以解决传统方法中各项同性正则化与行为策略流形各项异性之间的不匹配问题.
Zhanyu Liu et al.
cs.LG cs.AI
本文针对 few-shot RLVR 中存在的严重 entropy collapse 问题,提出了一个名为 HEAL 的框架。该框架通过引入高价值的通用领域数据和一种新的奖励机制来增强探索,实验表明其在少量目标领域样本下能取得与全量训练相当的性能。
Xiao Wang
cs.LG cs.AI cs.CC
本文研究了Transformer推理中KV cache压缩对多步推理能力的影响, 通过\(k\)-hop pointer chasing任务建立理论模型. 文章给出了关于计算深度与cache大小的下界猜想, 分析了信息带宽限制, 并比较了自适应与非自适应cache策略的错误率差异.
Ke Wan, Kensuke Tanioka, Toshio Shimokawa
cs.LG stat.ME
本文提出了一种用于医学数据的联邦规则集成方法, 称为联邦RuleFit框架. 该方法通过差分隐私直方图预处理、基于共享分割点的本地规则生成, 以及使用联邦对偶平均算法进行\(\ell_1\)正则化系数估计, 在保护数据隐私的同时构建了可解释的全局模型. 模拟和真实数据分析表明, 其性能与集中式方法相当, 并优于现有联邦学习方法.
Junyoung Yang, Kyungmin Kim, Sangdon Park
cs.LG stat.ML
本文提出了一种在对抗性半强盗反馈下的在线共形预测方法, 通过将预测集选择建模为对抗性强盗问题并利用regret最小化算法, 实现了长期覆盖率保证. 该方法在i.i.d.和非i.i.d.设置下均能有效控制错误覆盖率并保持合理的预测集大小.
Pooyan Khosravinia, João Gama, Bruno Veloso
cs.LG
本文提出了一种用于多元时间序列异常检测的因果约束概率预测框架, 称为因果引导Transformer (CGT). 该模型将显式的时滞因果图先验与深度序列建模相结合, 通过因果发现得到的硬父节点掩码来限制主要预测路径, 并利用辅助路径和安全门控机制来融合相关信息. 实验表明, 该方法在ASD和SMD基准测试中取得了先进的检测性能, 并提升了变量级归因的质量.
Michael Y. Li et al.
cs.LG
本文提出了一种名为Neural Garbage Collection (NGC)的方法,让语言模型在推理过程中学习自主管理其KV缓存。该方法通过强化学习,仅基于任务结果的奖励信号,联合优化模型的推理和遗忘决策。实验表明,NGC能在显著压缩缓存的同时保持较高的任务准确率。
Helmut Harbrecht, Christoph Schwab
cs.LG math.NA
本文研究了在参数化形状族上求解偏微分方程和边界积分方程的算子代理方法. 通过将问题拉回到参考域并利用参数全纯性, 证明了神经算子和谱算子代理的存在性及其误差界.
Mudi Jiang et al.
cs.LG
本文提出了一种用于多视图聚类数据的预聚类噪声视图分析方法. 该方法从聚类能力(clusterability)的角度, 设计了一个多视图聚类能力评分(MVCS), 用于量化数据中潜在聚类结构的强度, 并以此进行噪声视图检测. 实验表明该方法能有效支持噪声视图分析.
Enze Pan
cs.LG cs.AI
本文提出了一种名为RASP-Tuner的方法,用于在非平稳环境中进行上下文感知的黑盒优化。该方法通过检索历史上下文来构建混合专家代理模型,并在低维提示子空间中进行主要调整,从而在保持较低计算成本的同时实现优化。
Leyla Sadighi et al.
cs.LG
本文提出了一种基于变分自编码器(VAE)的领域自适应(DA)框架, 用于提升机器学习模型在不同光纤系统间监测物理层威胁时的泛化能力. 该方法通过训练一个共享编码器来学习跨系统的共同事件特征, 并抑制系统特异性差异, 从而显著提高了跨系统应用的分类准确率.
Blaise Delaney et al.
cs.LG
本文提出了一种名为Sonata的混合世界模型, 用于在临床数据稀缺条件下进行六轴躯干IMU的表示学习. 该模型通过预测未来状态而非重建原始传感器轨迹进行预训练, 并在多项临床评估任务中展现出优于自回归基线的性能.
Yunjia Yang et al.
cs.LG physics.flu-dyn
本文提出了一种用于三维气动预测的 foundation-model 范式。该方法先在大规模多样化数据集上预训练一个基于 Transformer 的模型,再通过少量任务特定样本进行微调,以在有限数据下构建高精度代理模型。
Josh Millar et al.
cs.LG
本文提出了一种轻量级的PhysioLite模型架构和训练框架,用于在资源受限的微神经处理单元(\(\mu\) NPUs)上实现ECG和EMG信号的实时分析。该模型通过可学习的小波滤波器组和硬件感知设计,在保持较小模型体积的同时,达到了与大型Transformer模型相当的性能。
Agnieszka Pregowska, Hazem M. Kalaji
cs.LG cs.AI
本文探讨了使用 implicit neural representations (INRs) 作为基于坐标的框架,从稀疏的生态观测数据中重建连续环境场的潜力。研究评估了该方法在物种分布重建等场景中的表现,包括其插值行为和计算特性。
Mingxue
cs.LG
本文通过分析Qwen3和Gemma3模型家族在四种低秩压缩方法下的表现, 发现稳定秩(stable rank)和信息密度是预测性能下降的关键指标. 研究提出了一个基于压缩比与稳定秩乘积\(\gamma \cdot \bar{\rho}_s\)的预测因子, 并为其有效性提供了理论解释, 从而支持一种先预测后压缩的工作流程.
Emanuel Sommer et al.
cs.LG stat.ML
本文提出了一种基于E-value的停止规则, 用于决定Bayesian Deep Ensembles中MCMC采样的时长. 该方法将集成构建过程视为一个序列化的假设检验, 以判断是否继续采样, 实验表明该方法通常只需部分采样预算即可达到效果.
Michal Podstawski
cs.LG
本文研究了微调后的小型语言模型在图结构推断任务中的泛化能力边界. 实验表明, 模型在超出训练范围的图尺寸和分布上仍能保持一定的结构属性排序能力.
Yann Bouquet et al.
cs.LG
本文提出了一种名为LoRaQ的数据无关后训练量化方法, 通过优化量化误差补偿, 允许低秩辅助分支本身也被量化, 从而首次实现了完全低于16比特的量化流程. 该方法在Pixart-\(\Sigma\)和SANA模型上取得了优于现有方法的结果, 并能与现代混合精度硬件兼容.
Thomas Asikis, Heinrich Nax
cs.LG cs.CE stat.AP
本文提出了一种“逆向”实验框架, 通过仅使用订单簿数据(出价、要价和成交价格)来预测市场的配置效率. 作者采用了基于分位数的归一化技术来处理数据的非结构性和非平稳性, 并训练了包括线性回归和梯度提升树在内的多种模型. 该框架展示了在交易发生前评估市场效率的潜力.
Ku Onoda et al.
cs.LG cs.AI cs.RO
本文探讨了在策略梯度强化学习中, 使用可微分模型进行一阶梯度估计的有效性问题. 作者提出了两种轻量级方法, 并在标准测试和机器人控制任务中验证了其性能.
Tim Goppelsroeder, Rasmus Jensen
cs.LG cs.AI
本文提出了一种名为MADDPG-K的可扩展多智能体强化学习方法, 通过将每个智能体的critic网络输入限制在度量距离最近的\(k\)个邻居智能体上, 解决了集中式critic方法输入维度随智能体数量线性增长的计算瓶颈. 实验表明, 该方法在多种环境中取得了与基线方法相当或更优的性能, 并展现出更好的运行时扩展性.
Arkadii Kazanskii et al.
cs.LG cs.CV
本文提出了一种名为DMF的摩擦增强漂移模型, 通过在线性调度的摩擦系数下分析两粒子代理系统的收缩阈值, 为漂移场迭代提供了有限时间误差界. 在Gaussian kernel假设下, 证明了漂移场均衡的可识别性, 即\(V_{p,q}\)在任何开集上消失可推出\(q=p\), 从而完善了先前工作的理论.
Muhammad Rajabinasab, Arthur Zimek
cs.LG
本文介绍了一个名为FSEVAL的特征选择评估工具箱和可视化仪表板。该工具旨在为研究人员提供一个标准化的统一平台,以便于对特征选择算法进行全面评估和可视化。
Zhuojun Tian, Chaouki Ben Issaid, Mehdi Bennis
cs.LG cs.AI
本文提出了一种新的分布式学习框架, 旨在为下游应用生成多样且具有判别性的表征. 通过引入表征方差约束并利用原始-对偶方法或块坐标下降进行优化, 该框架在i.i.d.和非i.i.d.数据分布下均能保证解的理论性质. 在多个数据集上的实验验证了其有效性.
Wei Chen et al.
cs.LG cs.AI
本文提出了一种统一的 incentive-score decomposition 来分析 preference optimization 的动态过程, 并基于此定义了 disentanglement band 条件来避免 likelihood displacement. 作者进一步提出了一个即插即用的 reward calibration 方法来满足该条件, 实验表明该方法能改善训练动态和下游性能.
Fernando Reitich
cs.LG
本文提出了一种用于审计大语言模型协议中单步操作的配对结果测量接口, 通过两个速率\(c\)和\(\gamma\)来量化错误纠正与引入. 该框架旨在诊断协议在分布偏移、组合等情况下的行为, 并在合成数学任务和GSM8K数据集上进行了验证.
Fei Wang et al.
cs.LG
本文提出了一种用于大语言模型微调的自适应分层零阶优化框架 AdaLeZO. 它通过将分层选择建模为多臂老虎机问题, 动态分配扰动预算, 并引入逆概率加权机制来降低方差, 从而显著提升了训练速度.
Youyuan Long, Gokhan Solak, Arash Ajoudani
cs.LG
本文提出了一种用于机电系统建模与辨识的耗散性隐式残差物理信息神经网络(DiLaR-PINN). 该方法通过结构化的残差网络学习未建模的耗散效应, 并采用循环展开策略进行训练, 在真实直升机系统上验证了其有效性.
Etienne Tajeuna et al.
cs.LG
本文提出了一种名为CAARL的模型, 用于预测具有复杂依赖和非平稳动态的协同演化时间序列. 该方法将时间序列分解为自回归片段, 构建时间依赖图并将其序列化为可由LLM处理的叙述, 从而提供可解释的预测.
Peter L. Bartlett et al.
cs.LG
本文提出了一种名为Platypoos的scale-free规划算法, 用于处理具有deterministic dynamics和stochastic discounted rewards的环境. 该算法无需预先知道reward function的scale和smoothness, 其sample complexity的分析结果在广泛的discount factor范围内改进了先前的工作.
Meheru Zannat
cs.LG
本文提出了一种基于自监督双通道交叉注意力机制的方法, 用于处理双侧腕戴式IMU信号以检测帕金森病. 该方法在公开数据集上取得了较高的分类准确率, 并展示了在有限标注数据下的迁移学习潜力及在边缘设备上的实时推理能力.
Mert Can Turkmen, Eng Leong Tan, Yee Hui Lee
cs.LG eess.SP physics.geo-ph physics.space-ph
本文提出了一种基于动态图神经网络的方法来预测电离层不规则性, 该方法利用卫星星历信息预先构建预测时段的图结构, 从而能够对仅在预测时段内出现的卫星视线进行预测. 在GNSS数据上的实验表明, 该方法相比持续性基准模型有显著提升, 并且图结构和星历条件化都起到了重要作用.
Esteban Rodríguez-Betancourt, Edgar Casasola-Murillo
cs.LG cs.AI
本文探讨了 self-distillation 在学习动态中的作用。通过训练一组随机初始化的网络并移除所有其他常见组件,研究发现这种极简设置也能在下游任务上学习到超越随机基线的表示。
Takato Yasuno
cs.LG
本文提出了一种基于R-GCN-VGAE的方法,用于对桥梁在灾害场景下的多维角色进行分类。该方法利用开放数据构建城市异质图,并通过基于元路径的特征表示来支持维护预算决策。
Zhenhua Dang et al.
cs.LG math.NA
本文提出了一种名为Balance-Guided SINDy (BG-SINDy)的数据驱动方法,用于从数据中发现包含小系数项的多尺度非线性偏微分方程(PDEs)的控制方程。该方法基于主导平衡原理,通过一种渐进剪枝策略来解决\(\ell_{2,0}\)正则化问题,从而能够识别出系数虽小但动态意义显著的项。数值实验在多个经典方程上验证了该方法的有效性。
Hen Davidov et al.
cs.LG cs.CL stat.ML
本文提出了一个用于大语言模型推理过程中动态弃权的原则性框架. 该框架将弃权建模为强化学习中的一个显式动作, 并推导出一个基于价值函数的近似方法. 实验表明, 该方法在数学推理等任务上优于现有基线.
Hanfeng Zhai et al.
cs.LG eess.SY nlin.AO
本文提出了一种用于大规模HVAC系统的可扩展数据驱动仿真框架, 将physics-informed neural ODEs与DAE求解器相结合. 该方法在组件层面学习热交换器动力学, 在系统层面通过DAE求解器强制执行连接约束, 并在实验中实现了比高保真仿真更快的速度且保持较低误差.
Florian Kittler, Sheethal Bhat, Andreas Maier
cs.LG cs.AI cs.CV
本文提出了一种名为ProtoCLIP的改进策略, 用于增强CLIP风格视觉语言模型在胸部X光零样本分类中的鲁棒性. 该方法通过构建病理聚焦的训练子集和引入表示保持的蒸馏目标, 旨在减少标签共现偏差并稳定域适应, 在未见数据集上取得了性能提升.
Chongxiao Li et al.
cs.LG cs.AR
本文提出了一个名为AutoPPA的自动化电路PPA优化框架. 该框架通过探索-评估-归纳的工作流程, 从生成的代码对中自动抽象出优化规则, 并采用自适应多步搜索来应用这些规则, 从而在性能、功耗和面积优化上超越了现有方法.
Sijie Mai, Shiqin Han
cs.LG
本文提出了一种从因果推断视角学习不变模态表示的方法, 用于提升多模态学习的鲁棒性. 该方法通过理论驱动的解耦技术, 将每个模态分离为因果不变表示和环境特定的伪相关表示, 并在多个基准测试中展现了优越的性能.
Yidi Yuan
cs.LG
本文研究了在LLM推理轨迹中通过调整采样位置来增强多步潜在预测的方法. 实验表明, 在语义步骤边界处应用STP方法能显著提升预测精度, 并揭示了生成质量与几何规律性之间的权衡.
Chupei Tang et al.
cs.LG cs.AI
本文提出了一个结合了相互作用预测与肽序列生成的深度学习框架, 用于肽-蛋白质相互作用的早期筛选. 该框架包含预测模型ConGA-PepPI和生成模型TC-PepGen, 并在多个基准测试中展现了竞争力.
Enshu Liu et al.
cs.LG
本文提出了一种名为NI Sampling的通用采样顺序优化框架, 用于加速离散扩散语言模型(dLLMs)的生成过程. 该方法通过训练一个神经指示器来决定每一步应采样哪些token, 实验表明其能在保持性能的同时显著减少采样迭代次数.
Jacob Morrison et al.
cs.LG
本文提出了一种名为BAR的模块化后训练方法, 通过独立训练不同领域的专家模型, 并使用Mixture-of-Experts架构和轻量级路由训练将它们组合起来. 该方法旨在以线性成本扩展语言模型的能力, 避免灾难性遗忘, 并在多个评估类别上取得了与从头训练基线相当或更好的性能.
Sarwan Ali, Taslim Murad
cs.LG
本文提出了一种名为Multi-Scale Reversible Chaos Game Representation (MS-RCGR)的新编码框架,用于将生物序列转化为多分辨率几何表示。该方法通过有理算术和分层k-mer分解生成尺度不变特征,并保证了编码的可逆性。实验表明,结合预训练语言模型嵌入与MS-RCGR特征的混合方法能提升序列分类性能。
Nicholas Thumiger et al.
cs.LG cs.AI
本文提出了一种用于赛车空气动力学设计的神经网络代理模型GIST, 该模型基于图结构并利用谱嵌入来编码网格连接性, 以处理复杂的几何形状. 作者还构建了一个由专家验证的高保真CFD数据集, 并展示了该模型在公开基准和赛车数据集上达到了先进的预测精度, 为交互式设计探索提供了可能.
Worachit Amnuaypongsa et al.
cs.LG eess.SY
本文提出了一种基于神经网络的概率预测框架, 用于同时生成点预测和区间预测. 该方法通过设计模型结构确保预测区间不交叉, 并利用多目标优化方法自适应地平衡多个目标, 在太阳能辐照度预测应用中取得了良好效果.
Zhenwen Liang et al.
cs.LG
本文针对强化学习在大型语言模型推理任务中, 当基础模型在标准基准上表现饱和时, 因缺乏失败案例导致优势信号消失和策略崩溃的问题, 提出了CUTS解码策略和Mixed-CUTS训练框架. 实验表明, 该方法能有效防止策略退化并提升模型的领域外泛化能力.
Aniruddha Adiga et al.
cs.LG cs.AI q-bio.PE
本文提出了一个用于传染病暴发预测的基准数据集IDOBE, 它整合了跨越一个多世纪的流行病学时间序列数据, 并生成了超过10,000次暴发事件用于评估. 作者使用多种基线模型进行了短期预测性能测试, 并公开了数据集以促进标准化评估.
Feras Al Taha, Eilyan Bitar
cs.LG eess.SP math.OC
本文提出了一种基于Wasserstein分布鲁棒优化的风险敏感估计方法, 通过最小化最坏情况下的条件风险价值(CVaR)来设计仿射估计器. 该方法在电力市场价格预测任务中展示了优于现有方法的样本外性能.
William Lavery et al.
cs.LG q-bio.QM
本文提出了一种结合数据预处理、BINN方程学习和符号回归后处理的PINN框架,用于从数据中发现二维时空反应-扩散系统的控制方程。该方法在肺癌细胞群动态的延时显微镜数据上进行了验证,展示了从实验观测中恢复模型的实用性。
Ran Ben-Basat et al.
cs.LG
本文澄清了TurboQuant与早期DRIVE/EDEN量化方案之间的关系. 它指出TurboQuant的两种变体分别是EDEN的特殊子情况或次优组合, 并通过实验表明优化后的EDEN方案在精度上全面优于TurboQuant.
Manan Gupta, Dhruv Kumar
cs.LG cs.AI cs.CL
本文提出了一种在推理时无需微调即可纠正大语言模型推理错误的方法. 该方法通过监测残差流中的异常变化并回滚KV缓存来实现纠错, 在数学推理任务上显著提升了模型性能.
Andrew Zhang et al.
cs.LG cs.AI cs.CL
本文提出了一个名为Apollo的多模态时序基础模型, 用于整合临床记录中的多模态数据并生成统一的虚拟患者表示. 该模型在包含大量纵向医疗记录的数据集上进行了训练和评估, 并在多种临床预测和检索任务上展示了其性能.
Salman Rahman et al.
cs.LG cs.AI
本文研究了在弱监督条件下, 大型语言模型(LLMs)何时能学会推理. 通过实验发现, 泛化能力与训练奖励饱和动态相关, 而推理忠实性(faithfulness)是预测模型行为的关键预训练属性.
Yunke Ao et al.
cs.LG cs.AI
本文提出了Bounded Ratio Reinforcement Learning (BRRL)框架, 通过一个正则化约束的策略优化问题及其解析最优解, 为策略优化提供了新的理论视角. 该框架连接了trust region方法与PPO的启发式目标, 并推导了确保性能单调改进的保证. 基于此框架的Bounded Policy Optimization (BPO)算法在多个基准测试中表现稳定, 性能与PPO相当或更优.
Liubomyr Horbatko
cs.LG cs.AI cs.CL
本文提出了一种名为Sessa的序列模型解码器,它将attention机制置于一个反馈路径中,实现了层内的循环多路径信息聚合。在特定假设下,该模型能实现比\(O(1/\ell)\)更慢的幂律衰减记忆,并在长上下文基准测试中表现出色。

cs.AI

Qifan Zhang et al.
cs.AI
本文提出了一种训练LLM agent进行自发、无奖励自我进化的新方法. 该方法通过设计一种基于结果的奖励机制, 在训练阶段引导agent探索和总结世界知识, 从而赋予其内在的元进化能力. 在推理时, agent无需外部奖励或指令, 即可自发适应未知环境. 实验表明, 该方法显著提升了agent在WebVoyager和WebWalker等任务上的性能, 甚至使一个较小的模型超越了未辅助的更大模型, 为agent的自主进化建立了新范式.
Vivek Acharya
cs.AI cs.MA
本文针对企业运营中AI agent激增带来的治理危机, 提出了一个五级成熟度治理模型(AAGMM). 该模型定义了12个治理领域, 并通过模拟验证了不同成熟度等级在成本控制、风险事件率等业务指标上的显著差异.
Vivek Acharya
cs.AI cs.MA cs.SE
本文针对企业多智能体LLM系统中因语义意图分歧导致的协调失败问题, 提出了一个名为语义共识框架(SCF)的流程感知中间件. 该框架通过多个组件实现冲突检测与解决, 并在实验中显著提升了工作流完成率.
Cody Kommers et al.
cs.AI cs.CY
本文从人文学科的诠释学理论出发, 提出生成式AI系统应被视为"语境机器", 并面临情境性, 多元性和模糊性三大解释性挑战. 作者提出了"计算诠释学"这一新兴框架及其三项评估原则, 旨在将AI评估的重点从准确性转向对意义和语境的考量.
Jinkai Qiu et al.
cs.AI cs.LG cs.MA cs.RO
本文提出了一个用于高速公路交通仿真的异质智能体自博弈框架PHASE, 通过条件化控制、合成场景生成和闭环多智能体训练来提升场景覆盖度、可控性和交互真实性. 该方法在未见过的真实交互场景中实现了零样本迁移, 显著提升了轨迹预测精度和行为真实性.
Mark Walsh
cs.AI cs.LG q-bio.NC
本文提出了一种信念仲裁中的支持充分性概念, 将其视为一种后果敏感的压缩过程. 作者构建了一个循环仲裁架构, 其中活跃的约束场共同决定了候选假设的几何结构, 系统将该几何结构压缩为一个支持感知的控制状态. 通过一个有界目标函数形式化了保留支持信息过少与过多之间的权衡, 并利用最小重复交互模拟验证了控制器预测.
Ari Ercole
cs.AI econ.GN
本文利用transaction-cost economics框架, 通过分析O*NET职业数据库中的任务描述, 对医疗保健工作中的协调成本进行了量化. 研究发现临床角色的交易成本显著高于非临床角色, 这主要源于信息搜索和决策相关的协调负担, 并指出AI干预的机会分布不均, 更多地受到协调结构而非技术任务复杂性的影响.
Zeeshan Rasheed et al.
cs.AI cs.SE
本文对22种流行的agentic frameworks在三个推理基准(BBH, GSM8K, ARC)上进行了实证评估。研究发现,多数框架能完成任务,但数学推理性能显著下降,且编排问题(如上下文控制、成本管理)是导致性能不佳的主要原因。
Haoruo Zhao et al.
cs.AI
本文提出了一种利用LLM辅助OWL本体主动学习的方法. 该方法将描述逻辑中的包含关系(subsumption)测试转化为可满足性(satisfiability)问题, 并通过自然语言向LLM提问以获取近似反例, 从而在保证本体一致性的前提下加速学习过程. 实验表明, 该方法在多个标准本体和商用LLM上能稳定控制II类错误.
Varun Kumar, George Em Karniadakis
cs.AI cs.LG
本文提出了一个基于大型语言模型的多智能体框架, 用于辅助工程设计的早期阶段. 该框架在基于集合的设计哲学中集成了形式化的风险管理, 使用Conditional Value-at-Risk (CVaR)作为量化指标来筛选高风险设计, 并通过自动化工作流为人类决策者提供经过评估的候选方案.
Erciyes Karakaya, Ozgur Ercetin
cs.AI
本文提出了一种基于信息论的框架, 将基于掩码的模型解释方法(如KernelSHAP和LIME)建模为通过一个“查询信道”进行通信的过程. 该框架将解释的复杂度与假设类的熵联系起来, 并推导了可靠恢复解释所需的最小查询次数的信息论极限.
Jiayi Tian et al.
cs.AI
本文提出了RankGuide框架, 通过分析small reasoning models (SRMs)在文本和隐藏状态空间中的推理失败模式, 利用连续隐藏状态张量秩(tensor-rank)信号来指导路由和调控. 该方法在多个推理基准上实现了更高效的协作推理, 在保持精度的同时显著降低了延迟.
Bhaskar Gurram
cs.AI cs.CL cs.MA
本文介绍了用于评估使用工具的大语言模型(LLM)智能体的基准AgentProp-Bench, 并量化了自动评估的可靠性. 研究发现, 基于子字符串的评估方法与人标注的一致性很低, 而集成方法可达到中等一致性, 同时揭示了错误传播的概率以及运行时缓解措施在不同模型上的效果差异.
Moein Salimi et al.
cs.AI cs.LG
本文提出了一个用于科学构思的强化学习框架, 其核心是一个多智能体奖励函数, 旨在作为"法官"提供严格且抗奖励攻击的二元奖励. 该方法在ICLR-320数据集上进行训练, 实验表明其在多个专家评估指标上优于现有基线.
Justice Owusu Agyemang et al.
cs.AI
本文研究了LLM编程代理在生成大型格式化文档时出现的"输出停滞"问题. 作者提出了一个理论框架, 通过引入输出生成容量(Output Generation Capacity, OGC)和格式成本分离定理(Format-Cost Separation Theorem)来解释和防止这种故障. 实验验证了延迟渲染(deferred rendering)策略能显著减少token消耗并消除输出停滞.
Jianyou Wang et al.
cs.AI cs.CL
本文介绍了一个名为CT Open的开放平台, 用于临床实验结果的预测挑战. 该平台通过一个自动化的去污染流程来确保评估的公正性, 并发布了训练集和测试基准.
Yang Shanglin
cs.AI cs.CV
本文分析了Vision Transformers中无需训练的token缩减方法在高压缩率下性能骤降的原因. 通过提出ranking consistency和off-diagonal correlation两个诊断工具, 作者将性能崩溃分解为层间缩减固有的误差放大效应和对pairwise相似性信号的依赖. 基于此诊断, 作者提出了新的设计原则并构建了CATIS方法进行验证.
Eren Unlu
cs.AI
本文通过引入Support-State Triage Audit (SSTA-32)诊断框架,评估了LLM智能体在任务受阻时的诊断与决策能力。研究发现,通过提供明确的分类决策路径,可以显著提升智能体对任务状态的准确判断,避免过度承诺。
Eren Unlu
cs.AI
本文提出了一个名为MESA-S的单智能体框架, 旨在通过引入元认知机制来改善大型语言模型(LLM)作为自主智能体时的决策可靠性. 该框架将传统的标量置信度估计向量化, 分离了自我置信度和来源置信度, 并通过延迟评估等机制来减少不必要的计算和上下文污染.
Valentin Kriegmair, Dirk U. Wulff
cs.AI
本文使用交叉随机效应模型分析了多个大语言模型在心理语言学规范任务中的响应数据, 旨在区分模型固有的个体差异与全局响应偏差. 研究发现, 平均有16.9%的方差可归因于刺激特定的个体性, 且这种个体性构成了每个模型独特的、连贯的行为指纹.
Jiahao Li et al.
cs.AI
本文提出了一个名为SAVE的生成式框架, 用于多条件单细胞基因表达数据的建模. 该框架通过将基因分组为语义块并利用条件Transformer与Flow Matching机制, 旨在提升生成保真度与对未见条件组合的泛化能力.
Keshav Shenoy et al.
cs.AI
本文提出了一种称为"introspection adapter"的方法, 用于使经过微调的大语言模型(LLM)能够用自然语言描述其习得的行为. 该方法通过在植入特定行为的微调模型上训练一个共享的LoRA适配器来实现, 并展示了其在行为检测任务上的泛化能力.
Nikhil Verma et al.
cs.AI cs.CL cs.DB
本文提出了PersonalHomeBench, 这是一个用于评估智能体在个性化智能家居环境中表现的基准测试平台. 该平台通过构建丰富的家庭状态来生成个性化任务, 并提供了一个工具集以支持与环境的交互, 实验揭示了智能体在复杂任务和反事实推理等方面的局限性.
Haibin Jiao
cs.AI
本文提出了一种结合CNN, Transformer和LSTM的混合神经网络模型CTLNet, 用于预测上证综合指数. 实验表明, 该模型在多元时间序列预测任务上优于现有的基准方法.
Dongyi He et al.
cs.AI
本文提出了一种名为GAMMA-Net的交通时空预测模型,它结合了Graph Attention Networks和multi-axis Mamba来建模复杂的时空依赖关系。实验表明该模型在多个基准数据集上优于现有方法。
Hikaru Shindo et al.
cs.AI cs.LG
本文提出了一个名为GRAIL的框架,用于在神经符号强化学习中自主地学习关系概念。它利用大语言模型提供初始概念表示,并通过环境交互进行细化,以解决稀疏奖励和概念错位问题。在Atari游戏上的实验表明,该方法在简化环境中能达到与人工定义概念相当的性能。
Benteng Chen et al.
cs.AI
本文提出了一种名为Step-GRPO的后训练框架,旨在提升大型推理模型的计算效率。该方法通过利用语言标记来结构化推理过程,将优化目标从原始token转移到语义步骤上,从而内部化动态提前退出的能力。实验表明,该方法能在减少计算消耗的同时保持模型精度。
Xinru Yan et al.
cs.AI
本文通过构建一个基于冲突的基准和模态选择率指标, 系统地量化了原生全模态大语言模型(OLLMs)中的模态偏好现象. 研究发现, 与传统的视觉语言模型(VLMs)的"文本主导"不同, 大多数OLLMs表现出明显的视觉偏好, 并且这种偏好是在模型的中后层逐渐形成的.
Sampriti Saha, Pranav Hemanth
cs.AI
本文介绍了Skilldex, 一个用于LLM agent技能包的管理器和注册表. 它提供了格式合规性评分和技能集抽象等工具.
Syed Muhammad Aqdas Rizvi
cs.AI cs.CL cs.CR cs.DC
本文通过一个名为Sentinel-Bench的实证框架,对Qwen-3.5-9B模型进行了推理时计算(System 2)的消融实验。研究发现,在对抗性的去中心化治理环境中,增加推理计算反而会严重损害模型的鲁棒性和效率,导致共识不稳定和延迟增加。
Hao Wang et al.
cs.AI
本文提出了一个名为ClimAgent的自主智能体框架,用于执行开放式的气候科学分析任务。该框架通过集成工具使用环境和推理协议,在专门的ClimaBench基准测试上超越了现有基线。
Junxi Wu et al.
cs.AI
本文提出了一种基于对齐印记的零样本AI生成文本检测方法. 该方法通过理论推导将LLM的对齐过程抽象为约束优化, 并引入了一个标准化的信息加权统计量LAPD来提升检测稳定性. 实验表明该方法相比现有基线有显著提升.
Jiaxin Fang et al.
cs.AI
本文提出了一种通过分析 reasoning trace 的结构来预测大型语言模型在代码任务上准确性的方法. 作者构建了一个自动生成不同难度编程任务的框架, 并利用提取的 thought-tree 特征训练分类器以识别和重试错误答案.
Alexis Carrillo et al.
cs.AI cs.CY cs.HC cs.LG cs.SI
本文通过Talk2AI纵向框架,研究了大型语言模型(LLMs)在极化社会议题上对人类的说服力。研究发现,人类对初始观点存在惯性,且LLMs的说服效果主要作用于特定心理易感人群,与对AI的信任度及情感诉求相关。
Pollawat Hongwimol et al.
cs.AI
本文提出了一个名为AutoPKG的多智能体LLM框架, 用于从多模态商品内容中自动构建产品属性知识图谱(PKG). 该框架通过集中决策智能体维护全局一致的规范图谱, 并在真实电商数据集上验证了其有效性, 在线A/B测试也显示了其提升业务指标的实际价值.
Zhaokang Liao et al.
cs.AI
本文提出了一种名为Mastery-Consolidated Policy Optimization (MCPO)的强化学习算法,用于改进大型语言模型(LLMs)的推理能力。该方法通过引入hinge-KL正则项和新的加权机制,解决了现有GRPO方法在训练信号和策略漂移方面的问题,并在多个数学基准测试中提升了性能。
Adela Bâra, Simona-Vasilica Oprea
cs.AI
本文提出了一个表型驱动和证据主导的框架,用于在人口数据中丰富知识图谱和发现假设。该方法整合了图神经网络和大型语言模型,通过多目标优化来平衡知识的确认与发现。
Jiawen Wen et al.
cs.AI cs.CV cs.RO
本文提出了Rule-VLN,一个用于评估智能体在导航中遵守社会规则能力的大规模城市基准。它包含多种细粒度的视觉和行为约束,并引入了一个零样本的语义导航校正模块来增强预训练智能体的安全感知能力。
Wenzhen Yuan et al.
cs.AI
本文提出了一种名为Agent-as-Tool的统一并行编排范式,将agents和tools抽象到标准化的可学习动作空间中。基于此,训练了一个轻量级编排器ParaManager,它通过两阶段训练流程实现并行子任务分解与执行,在多个基准测试中表现出色。
Sukai Huang et al.
cs.AI
本文提出了一个用于研究指令粒度对具身智能体影响的新基准, 并揭示了指令粒度与智能体性能之间存在非单调的U型关系.
Tianbao Zhang
cs.AI cs.LG
本文提出了一个名为CAAF的框架, 旨在通过结构化的工作流程和确定性接口来确保AI智能体在安全关键任务中的可靠性. 该框架在自动驾驶和制药反应器设计等领域的基准测试中表现出色, 显著提升了约束满足率.
Shangge Liu et al.
cs.AI
本文提出Task-Feature Specialization (TFS)作为解释task arithmetic成功的内在原理,并证明其能导致权重正交性。基于此,作者设计了一种名为OrthoReg的正则化方法,通过在微调中强制权重更新正交来提升任务组合的性能。
Kimia Hamidieh et al.
cs.AI
本文提出了一种结合跨模型分歧来量化大语言模型不确定性的方法. 该方法通过计算模型间与模型内的语义相似度差异来估计认知不确定性, 并与基于自一致性的偶然不确定性结合, 以更好地识别模型的自信错误.
Yanjun Cui et al.
cs.AI cs.CR
本文提出了一个名为CGM-Agent的隐私保护框架,用于回答关于个人连续血糖监测数据的自然语言问题。该框架将大型语言模型作为推理引擎,在本地执行计算以避免数据泄露,并在构建的基准测试中评估了多个模型的性能。
Oliver E. Richardson et al.
cs.AI cs.LG
本文提出了一个名为Local Inconsistency Resolution (LIR)的通用算法框架, 用于概率模型的学习和近似推断. 该框架基于Probabilistic Dependency Graphs (PDGs), 能够统一多种现有算法, 如EM, belief propagation和GANs, 并在GFlowNets上展示了改进.
Sukwon Yun et al.
cs.AI
本文提出了一种基于图结构的Graph-of-Agents框架,用于协调多个LLM agent进行协作。该框架通过节点采样、有向消息传递和图池化来整合不同模型的响应,在多个基准测试上取得了优于基线方法的效果。
Nwe Ni Win et al.
cs.AI
本文评估了开源LLaMA3模型在细粒度医疗实体识别任务上的表现。研究采用了零样本、少样本和基于LoRA的微调三种学习范式,并引入了基于嵌入相似度的示例选择方法来提升少样本学习效果。结果表明,微调后的LLaMA3模型性能显著优于其他方法。
Alexandre Linhares
cs.AI
本文提出了一种通过跨数学领域迁移证明策略模式来发现新证明的方法. 该方法利用GPU加速的NP-hard类比匹配引擎, 将源领域的证明策略语义适配到目标领域, 并在Probability到Representation Theory的迁移中取得了40%的成功率.
Vinil Pasupuleti et al.
cs.AI
本文提出了一种用于企业AI系统的运行时多智能体协调层CAMCO, 它将多智能体决策建模为一个约束优化问题, 通过约束投影、风险加权的效用塑造和可证明收敛的协商协议来确保策略合规与风险可控. 实验表明该方法能在多种企业场景下实现零策略违反、低风险暴露和高效用保留.
Zikun Ye, Hema Yoganarasimhan
cs.AI stat.AP
本文研究了在LLM生成廉价预测的背景下, 如何为多个估计任务分配固定预算的人类受访者样本. 作者提出了一个结合了rectification difficulty概念, 最优分配规则以及基于历史数据的元学习预测器的框架, 该框架可推广到一般的M-估计问题. 在多个数据集上的实验验证了该方法的有效性, 能够在无需目标调查试点数据的情况下显著降低均方误差.
Samuel Sameer Tanguturi
cs.AI
本文是一篇关于AI系统架构的立场论文, 主张构建一个名为"continuity layer"的架构层来解决模型跨会话的记忆与理解持续性问题. 作者提出了该层应具备的七个特性, 并探讨了其工程实现、发展路径及治理架构.
Chao Jin et al.
cs.AI
本文提出了一个名为HalluClear的综合工具套件, 旨在诊断、评估和减轻GUI智能体中的幻觉问题. 该套件包含一个针对GUI的幻觉分类法, 一个经过校准的三阶段评估流程, 以及一个基于闭环结构化推理的缓解方案. 实验表明, 仅使用该套件中的少量数据进行后训练, 即可显著减少幻觉, 为GUI自动化提供了一条计算高效的路径.
Yueyang Ding et al.
cs.AI
本文提出了一个用于时间序列推理的分层任务分类法, 并构建了一个包含多样化任务组合和验证过的思维链轨迹的数据集 HiTSR. 基于此, 作者开发了 LLaTiSA 模型, 它通过整合可视化模式和数值表格来增强视觉语言模型的时间感知能力, 并在多个任务上展示了良好的性能.
Jiakun Li et al.
cs.AI
本文提出了TRACE框架, 用于在测试时动态终止大语言模型的多步推理过程以提高效率. 该方法通过聚合多步证据(答案一致性和置信度轨迹)来判断推理是否收敛, 从而在保持准确率的同时显著减少计算量.
Ziao Zhang et al.
cs.AI
本文提出了一个名为SkillFlow的基准测试, 用于评估自主智能体在长期学习中的技能发现与演化能力. 该基准包含166个任务, 并引入了一种域无关执行流(DAEF)来构建任务, 以及一个智能体终身学习协议来评估技能库的构建与维护.
Guangsheng Yu, Xu Wang
cs.AI
本文提出了一种名为Knows的轻量级规范, 用于为研究文献(如PDF)创建结构化的、面向智能体(agent)的辅助文件(sidecar). 该方法旨在提高LLM智能体在科研工作流中提取和使用信息的效率和准确性.
Jingbo Sun et al.
cs.AI
本文提出了一个名为AutoSearch的强化学习框架, 旨在优化Agentic RAG系统中搜索步骤的深度. 该方法通过评估自生成的中间答案来动态调整搜索深度, 以在保证答案质量的同时减少不必要的计算开销.
Giuseppe De Giacomo et al.
cs.AI
本文为基于智能体(agent)的业务流程管理系统建立了形式化数学基础, 分析了其核心问题. 文章在三种关键设定下研究了多自主决策者驱动的流程执行, 并探讨了组织如何通过目标与策略规范为智能体决策提供约束.
Yuncheng Hua et al.
cs.AI
本文提出了一种名为SOCIA-EVO的双锚定双层优化框架,用于自动化构建统计保真度的模拟器。该方法通过分离结构优化与参数校准,并利用执行反馈来剔除无效策略,从而提升了长程LLM智能体在模拟器构建任务中的鲁棒性和收敛性。
Zizhang Luo et al.
cs.AI cs.DC
本文提出了一个名为 Hive 的多智能体基础设施,旨在解决算法层面和任务层面的扩展性问题。该系统通过一个描述前端来捕获智能体行为,并利用后端机制优化计算资源分配。
Zixuan Tang, Shen Zhao
cs.AI
本文提出了一种用于细粒度医学图像分类的教师引导双路径多原型检索增强框架(T-DuMpRa). 该框架结合了判别式分类与基于多原型的检索, 通过构建原型记忆库并在推理时进行置信度门控融合, 提升了模型在视觉模糊病例上的处理能力.
Chenyun Yin et al.
cs.AI cs.MA cs.PL
本文提出了一个名为EggMind的LLM引导框架, 用于自动化合成Equality Saturation (EqSat) 的优化策略. 该框架通过一个领域特定语言EqSatL来表示策略, 并利用LLM代理工作流进行高效搜索, 以缓解e-graph爆炸问题并提升优化效果.
Ziqing Zhuang et al.
cs.AI
本文提出了一个名为"Metacognitive Consolidation"的框架, 旨在将大语言模型(LLM)在单次推理中获得的元认知经验转化为可重用的知识. 该方法通过结构化的问题解决角色和分层更新机制来积累元推理技能, 实验表明其在多个基准测试上带来了性能提升.
Mohit Dubey
cs.AI math.AT
本文提出了一种基于相位调度的多智能体系统(PSMAS), 用于解决大语言模型驱动的多智能体系统中的令牌效率低下问题. 该方法通过将智能体激活建模为在圆形流形上的连续控制, 并引入全局扫描信号来调度智能体执行, 从而显著减少了令牌消耗.
Wei Chen et al.
cs.AI
本文提出了一个名为STRIDE的框架, 用于改进检索增强的多跳问答(MHQA). 该框架通过分离战略规划, 动态控制和落地执行来缓解现有方法中存在的过早词汇承诺和步骤间依赖协调问题. 实验表明, STRIDE能够实现更鲁棒和准确的推理.
Xinyu Zhu et al.
cs.AI
本文提出了一个名为EvoMaster的基础性、可进化的智能体框架,旨在支持大规模自主科学发现。该框架强调智能体的持续自我进化能力,能够跨实验周期迭代优化假设并积累知识,并声称能以约100行代码快速构建面向任意学科的科学智能体。
Zan Kai Chong, Hiroyuki Ohsaki, Bryan Ng
cs.AI
本文提出了一种名为 Semantic Gradient Descent (SGDe) 的师生框架,用于将智能体工作流编译成包含确定性代码的执行计划。该方法在特定测试集上显著提升了小型语言模型的工作流执行准确率。
Siqi Lai et al.
cs.AI
本文提出了一个名为TrafficClaw的通用城市交通控制框架,其核心是构建一个统一的物理环境模型,将交通信号、高速公路、公共交通等异构子系统整合到一个共享的动态系统中。该框架利用LLM智能体进行时空推理,并通过多阶段训练实现系统级的协调优化,在未见过的交通场景中展现了良好的泛化性能。
Yifan Song et al.
cs.AI
本文提出了一种轻量级的GraphRAG框架EHRAG,它通过构建融合结构和语义信息的超图来增强检索。该方法利用混合扩散检索机制,在多个数据集上取得了优于现有基准的性能,同时保持了线性的索引复杂度。
Damiano Fornasiere et al.
cs.AI
本文通过实验发现, 大型语言模型能够检测并定位其内部激活值(activations)所受到的扰动, 例如dropout(随机失活)或Gaussian noise(高斯噪声). 模型甚至能在一定程度上区分这两种扰动类型, 这引发了对模型是否具有某种"训练感知"能力的讨论.
Ashutosh Bajpai et al.
cs.AI cs.CL cs.LG
本文提出了一个名为SPECTRA的无监督框架, 用于增强小型视觉语言模型(SVLMs)的代理能力. 该框架通过强化学习和多目标奖励信号, 使模型能够自主发现有效的行为模式, 从而在多项基准测试中提升了任务准确性和工具使用效率.
Carissa Cullen et al.
cs.AI
本文探讨了如何通过DReST奖励函数训练AI代理,使其在轨迹长度选择上保持随机性(Neutral)并在给定长度内有效追求目标(Useful)。实验表明,该方法训练的强化学习代理和大型语言模型在未见过的测试环境中能较好地泛化这些特性。
Zheng Nie et al.
cs.AI cs.MA
本文提出了SkillGraph, 一个联合演化agent专业能力和通信拓扑的框架, 用于解决视觉多智能体系统中的静态协作问题. 它通过一个多模态图Transformer动态预测查询相关的协作图, 并利用一个技能设计器从失败案例中提炼推理启发式规则, 构建自演化的技能库.
Marcelo Fernandez
cs.AI cs.CR
本文分析了基于运行时约束检查的自治agent治理机制的结构性局限. 文章证明了在满足局部可观测性假设的系统中, 用于定义允许行为空间的sigma-algebra无法由执行信号生成, 这导致行为漂移无法被检测. 作者提出了一个名为不变测量层(IML)的替代框架来克服这一限制, 并在多个实验场景中验证了其有效性.
Hansi Zeng et al.
cs.AI cs.CL cs.IR
本文提出了一个名为CoSearch的框架, 通过强化学习联合训练多步推理智能体(agent)和生成式文档排序模型. 该方法旨在克服现有智能体搜索(agentic search)中固定检索系统带来的性能瓶颈. 在多个问答基准测试上的实验表明, 联合训练是可行且有效的.
Hailin Liu et al.
cs.AI cs.MA
本文提出了一种名为SafeAgent的运行时安全架构, 用于保护基于大语言模型(LLM)的智能体(agent)系统免受提示注入(prompt-injection)等攻击. 该架构将安全决策视为一个基于交互轨迹的状态问题, 通过分离执行治理与语义风险推理来提升防护能力.
Jazmia Henry
cs.AI
本文指出了当前大语言模型评估框架在评估智能体系统时的系统性缺陷, 并提出了一个名为Grounded Continuous Evaluation (GCE)的新框架. 作者还介绍了ISOPro系统, 该系统在资源受限的调度任务上进行了验证, 展示了性能提升.
Jiachen Zhang et al.
cs.AI
本文提出了一种名为DIRCR的双重推理规则对比学习模型, 用于解决RAVEN抽象视觉推理问题. 该模型结合了局部行类比推理与全局整体推理, 并通过规则对比学习模块提升特征的可分离性.
Feiyang Kang et al.
cs.AI cs.CL cs.LG
本文提出了一种基于模型自身内部表示的"模型原生技能"刻画方法, 通过从序列级激活中恢复一个紧凑正交基来表征模型的行为变化轴. 该方法在推理后训练任务上进行了验证, 用于数据选择和推理时引导, 在数学推理基准上取得了优于基于人工定义技能的方法的效果.
Xiao Zhang et al.
cs.AI
本文提出了KnowledgeBerg基准, 用于评估大语言模型在系统化知识覆盖和组合推理方面的能力. 实验表明, 当前模型在这两项任务上表现不佳, 揭示了其在结构化知识组织和有界领域推理上的局限性.
Peter Bajcsy, Walid Keyrouz
cs.AI cs.CL cs.SE
本文提出了一种通过动态更新AI文档来提高AI模型可重用性的方法. 该方法利用Hugging Face平台的数据, 量化了模型文档质量与模型复用指标之间的相关性, 并构建了用于定期比较文档模板与社区实践的基础设施.
Yuan Tian, Tianyi Zhang
cs.AI cs.DB
本文提出了一个名为PV-SQL的智能体框架,用于提升Text-to-SQL系统的性能。该框架通过结合数据库探测和基于规则的验证来增强对复杂查询的上下文理解与约束完整性。
Ifdita Hasan Orney et al.
cs.AI
本文提出了一个用于后训练语言模型的框架, 旨在鼓励乐观探索并促进探索与利用的协同. 该方法通过集合强化学习优化模型, 使其生成在奖励函数下集体准确且推理策略具有探索性的响应集合.
Nick Loghmani
cs.AI
本文针对RAG系统中因文档多主题交织导致的语义纠缠问题, 提出了一个形式化框架和预处理流程. 通过引入Entanglement Index进行量化, 并设计了Semantic Disentanglement Pipeline来重构文档, 在真实医疗知识库上显著提升了检索精度.
Xiachong Feng et al.
cs.AI
本文提出了一种名为STRATAGEM的方法,旨在通过轨迹调制的游戏自博弈来学习可迁移的推理能力。该方法通过设计两个奖励机制来克服领域特定性和上下文静态性,并在数学推理和代码生成等基准测试中取得了改进。
Jiahao Huang et al.
cs.AI
本文提出了一个名为EvoOR-Agent的协同进化框架,用于自动化优化任务。该框架将智能体的工作流表示为网络,并通过进化算法优化其架构和推理路径,在多个基准测试中取得了优于现有方法的效果。
Anda Cao et al.
cs.AI cs.CL cs.CV
本文提出了一种名为ENMP的LoRA专家合并前剪枝方法, 通过进化搜索识别并移除对合并性能有害的"负模块". 该方法作为即插即用模块, 能有效提升现有合并算法的性能.
Rongyuan Tan et al.
cs.AI cs.CL
本文提出了一种基于对比归因的方法来分析LLM在真实基准测试中的失败案例. 该方法通过归因错误输出与正确输出之间的logit差异到输入token和内部状态, 并引入了处理长上下文的扩展. 实证研究表明该方法在某些情况下有效, 但并非普遍适用.
Xiaohan Zou et al.
cs.AI
本文揭示了VLM-as-a-Judge系统存在的一种“信息量偏见”,即模型在评判时过度依赖答案的信息丰富度而忽视图像内容。作者提出了BIRCH方法,通过引入一个修正后的参考答案来引导模型关注图像本身的正确性,实验表明该方法能有效减少偏见并提升评判性能。
Yingtao Tian
cs.AI
本文通过一个元学习框架, 让LLM智能体在双寡头市场模拟中迭代优化其共享策略提示, 研究了提示优化是否会导致合谋行为的出现. 实验表明, 优化后的智能体能够发现稳定的隐性合谋策略, 其协调质量显著优于基线.
Prasoon Goyal et al.
cs.AI cs.LG
本文提出了一种名为Adversarial Arena的对抗性交互框架,用于生成高质量的多轮对话数据。通过组织攻击者和防御者团队进行竞赛,该方法在网络安全领域生成了大量数据,并用于微调模型,提升了其在安全代码生成任务上的性能。
Lingfeng Zhang et al.
cs.AI
本文提出了一个名为WebUncertainty的自主网络智能体框架,旨在解决复杂网页任务中的规划与推理不确定性。该框架通过自适应规划机制和基于蒙特卡洛树搜索的推理机制来提升性能,并在标准测试集上取得了优于现有方法的结果。
Charles Ye, Bo Yuan, Lee Sharkey
cs.AI cs.CL cs.LG
本文提出了一种针对Mixture-of-Experts (MoE) 模型的无参数分解方法,将隐藏状态分离为控制信号和内容通道。研究发现,控制信号编码了抽象的、逐层变化的函数,而内容通道则保留了表面特征。这种结构使得专家路径(expert paths)呈现出单义性(monosemantic),而单个专家则保持多义性(polysemantic)。
Gonzalo Gonzalez-Pumariega et al.
cs.AI
本文研究了计算机使用智能体(computer-use agents)在重复执行相同任务时表现不可靠的原因. 作者通过分析执行随机性、任务描述模糊性和智能体行为可变性这三个因素, 指出评估智能体时需要关注其在不同运行中的稳定性.
Xuan Wang et al.
cs.AI
本文提出了一种名为SPREG的轻量级推理时框架, 用于在大型语言模型进行长链推理时进行实时错误纠正. 该方法通过监测实时熵来识别逻辑故障, 并触发动态修复, 从而在多个复杂任务上提升了性能.
Chuhan Qiao
cs.AI cs.LG
本文提出了一个名为PI-CMDP的框架,用于处理具有分层约束依赖关系的约束马尔可夫决策过程(CMDP)。该框架通过识别因果结构、压缩状态空间和使用物理信息估计器,提高了在工程仿真管道中进行顺序约束修复的样本效率。在基准测试中,该方法以较少的数据实现了较高的修复成功率。
Wanli Li et al.
cs.AI
本文提出了一个名为LiteResearcher的可扩展智能体强化学习训练框架, 旨在解决深度研究智能体训练中的现实世界搜索依赖与成本问题. 该框架通过构建一个模拟真实搜索动态的轻量级虚拟世界, 使一个小型搜索智能体在GAIA和Xbench等基准测试中取得了开源模型中的先进性能.
Rishav Rishav, Pushpak Pujari, Pushpendre Rastogi
cs.AI
本文提出了一种名为ContraPrompt的prompt优化方法, 其核心是通过对比同一模型在相同输入下成功与失败两次尝试的完整chain-of-thought推理轨迹来提取优化信号. 该方法利用自动化的多尝试求解循环生成对比数据, 并将提取的规则组织成输入感知的决策树来路由指令. 在多个推理和合规基准测试中, 该方法取得了优于基线GEPA的性能提升.
Chuhan Qiao
cs.AI
本文提出了一个用于多智能体委派的上下文能力校准框架CADMAS-CTX. 该方法通过维护上下文相关的Beta后验分布来替代静态技能评估, 并引入风险感知的委派评分, 在GAIA和SWE-bench基准测试上取得了优于静态基线的性能.
Jinglai Zheng, Chuhan Qiao, Haiming Huang
cs.AI
本文提出了一个用于评估大语言模型在高超声速热防护系统工程中分析计算能力的基准测试框架. 该框架包含任务分类、双轨评估方法和诊断干预措施, 旨在发现模型在工程推理过程中的潜在错误.
Ismaïl Baaj, Henri Prade
cs.AI cs.LG
本文建立了二值化神经网络(BNNs)与Sugeno积分之间的精确联系. 研究表明, 隐藏层神经元的激活阈值测试可以表示为二值输入上的Sugeno积分, 从而为每个神经元的决策提供了明确的集函数表示和基于规则的表示.
Hasan Amin et al.
cs.AI cs.CL
本文探讨了在何种条件下, large language models (LLMs) 作为标注者能够比人类更准确地预测群体主观意见. 研究表明, LLMs 在某些常见场景下因其低方差等统计特性而具有优势, 但人类判断在某些情况下仍然不可或缺.
Jiaqi Li et al.
cs.AI
本文提出了一个名为AIT Academy的AI智能体课程框架,该框架借鉴了人类知识的三分结构(自然科学与技术推理、人文与创意表达、社会科学与伦理推理)以及儒家“六艺”的概念,旨在为智能体提供全面的能力培养。文章通过三个具体的训练场验证了该框架,展示了在特定课程安排下智能体在安全能力和社会推理方面的性能提升。
Shaowei Zhang et al.
cs.AI
本文提出了一个名为SELF-EMO的自我进化框架,旨在提升大型语言模型在对话中的情感识别与表达一致性。该方法通过角色扮演和自我对话生成数据,并利用强化学习进行优化。实验表明,该框架在多个基准数据集上取得了先进的性能。
Anthony Bordg
cs.AI cs.LO
本文提出了一种逻辑到拓扑的编码方法, 旨在解决神经符号推理系统(如AlphaGeometry)中的表示瓶颈. 该方法通过利用可观测理论的证明性与拓扑之间的对偶性, 构建了输入空间的"数据集的拓扑对偶", 为模型的机制可解释性提供了原则性路径.
Rimvydas Rubavicius et al.
cs.AI
本文提出了一种用于理解人类动作的领域特定语言EXACT, 它将动作表示为可执行的、未完全指定的运动程序. 通过将这些程序解释为奖励函数并利用前向-后向表示进行零样本策略推断, 该方法构建了一个神经符号模型, 用于动作分割和异常检测任务, 相比单一任务方法提高了数据效率.
Hu Wei
cs.AI
本文通过分析70个公开的AI agent系统项目,研究了其非LLM基础设施的架构设计决策。研究识别了五个常见的设计维度,并归纳了五种典型的架构模式。
Zhiyuan Ma et al.
cs.AI
本文提出了一种用于通用EEG解码的双尺度注意力交互网络(DSAINet). 该方法通过并行卷积分支和跨尺度注意力机制, 在多个数据集上取得了优于基线模型的效果, 并保持了较高的参数效率.
Yujie Chen et al.
cs.AI
本文提出了一种名为Delta Attention Selective Halting (DASH)的训练无关方法, 用于在长上下文预填充阶段减少计算开销. 该方法通过监控自注意力机制的层间更新动态, 选择性地停止对已稳定token的处理, 从而在保持模型精度和硬件效率的同时实现显著的预填充加速.
Zixiang Wang et al.
cs.AI
本文是一篇关于多智能体系统(MAS)的综述, 系统回顾并比较了经典多智能体系统(CMAS)与基于大基础模型(LFM)的多智能体系统(LMAS). 文章在闭环协调框架下从感知、通信、决策和控制四个维度审视CMAS, 并探讨了LMAS如何通过语义级推理提升协作的灵活性与适应性.
Yanzhen Lu et al.
cs.AI
本文通过设计受控路由任务, 研究了 prompt-based interventions 如何改变模型行为, 并探讨了行为相关状态在模型中的表示位置. 作者使用 GPT-2 和 Qwen 模型进行实验, 比较了 fixed-interface reuse 和 prompt relocation 两种模式, 发现前者是更强的 reuse 证据.
Songxin Qu et al.
cs.AI quant-ph
本文提出了QuantumQA数据集和一种结合可验证奖励的强化学习方法, 用于提升大语言模型在量子力学等科学领域的推理可靠性. 实验表明该方法在参数效率上优于基线模型.
Yanzhen Lu et al.
cs.AI
本文在严格无需训练的条件下, 研究了 prompt-injected memory 使用中的控制问题, 提出了一个结合不确定性路由、置信度选择等模块的控制架构. 该架构在算术推理基准上取得了显著提升, 并展示了控制机制而非单纯记忆暴露是性能改进的关键.
Sheng Xu et al.
cs.AI cs.LG cs.MA
本文提出了一个名为TacticGen的生成模型,用于生成足球战术。该模型基于多智能体扩散transformer架构,能够根据比赛上下文生成球员的移动序列,并通过分类器引导机制适应不同的战术目标。
Wentao Shi et al.
cs.AI
本文提出了一个名为AJ-Bench的基准测试,用于系统评估“Agent-as-a-Judge”方法在复杂环境中的验证能力。该基准涵盖了搜索、数据系统和图形用户界面三个领域,旨在测试智能体在信息获取、状态验证和过程验证等方面的性能。
Salmane Chafik, Saad Ezzini, Ismail Berrada
cs.AI cs.DB cs.SE
本文探讨了课程学习能否提升代码大语言模型在Text-to-SQL任务上的性能。通过实验发现,简单的课程排序效果不佳,因此提出了一种模块化的适配器组合策略,在Spider和BIRD基准上取得了性能提升。
Wei Huang et al.
cs.AI
本文提出了一种名为PLAG的伪标签引导异常生成方法, 用于增强表格数据的异常检测. 该方法通过伪异常标签引导生成, 并将样本的整体异常量化分解为特征级异常的累积, 从而在无需真实标签的情况下更好地捕捉局部异常模式. 实验表明该方法能有效提升现有无监督检测器的性能.
Guanting Dong et al.
cs.AI cs.CL
本文提出了一个名为Agent-World的自进化训练框架, 旨在通过可扩展的环境合成来提升通用智能体(agent)的能力. 该框架包含自主探索真实世界主题数据库以合成可验证任务的环境-任务发现模块, 以及结合多环境强化学习和自进化竞技场以实现智能体策略与环境协同进化的持续训练机制.
Eranga Bandara et al.
cs.AI
本文提出了一种零出口、设备端的人工智能平台, 用于隐私保护的精神科决策支持. 该系统将经过微调的大型语言模型联盟部署在移动设备上, 实现完全本地的推理, 避免了患者数据外传, 并在初步评估中展现了与服务器端版本相当的诊断准确性.
Xingyu Fan et al.
cs.AI cs.CL
本文提出了一种针对多阶段LLM pipeline的Pipeline-Adapted Reward Model (PARM), 旨在解决reward model预测与pipeline实际执行结果不一致的问题. 通过在代码生成等任务上的实验, 该方法被证明能提升输出质量与稳定性.
Jihong Guan et al.
cs.AI
本文提出了一种名为DiffTSP的离散扩散模型, 用于知识图谱三元组集合预测任务. 该模型通过离散扩散过程一次性生成完整的缺失三元组集合, 并在三个公开数据集上取得了先进的性能.
Ravidu Suien Rammuni Silva et al.
cs.AI cs.GR cs.MA
本文提出了 ManimTrainer 和 ManimAgent 两个框架,用于改进 LLM 生成 Manim 动画代码的能力。研究评估了多种训练与推理策略的组合,发现它们在不同方面(如代码质量与视觉输出)各有优势。
Alexandra Volokhova, Alex Hernandez-Garcia
cs.AI cs.CY
本文探讨了AI研究人员在AI技术赋能武器系统发展中的角色与责任. 作者分析了研究人员作为"牵连主体"在相关危害中的具体处境, 并探讨了如何将这种牵连地位转变为对技术强化不公受害者的远距离团结.
Justin Bauer et al.
cs.AI cs.LG
本文通过实证研究, 探讨了在低数据和低算力条件下, 使用可验证奖励的强化学习(RLVR)对小型语言模型(SLM)进行微调的效果. 研究基于三个新颖的程序化生成数据集, 分析了模型性能如何随数据集规模、多样性和复杂性变化, 发现在低数据情况下, 混合复杂度的训练数据能带来显著的样本效率提升.
Chad Coleman et al.
cs.AI
本文通过LoRA微调技术, 在Meta-Llama-3.1-8B模型上构建了五个分别基于不同宗教文本训练的变体, 并探究了它们在标准化伦理提示下的推理模式差异. 研究发现, 微调后的模型产生了与其训练传统相符的、系统性的伦理推理差异, 且基础模型展现出最高的回答一致性.
Tao Zhang et al.
cs.AI cs.LG cs.RO
本文通过构建一个名为DESPITE的基准测试,系统评估了大型语言模型作为机器人系统规划器的安全性。研究发现,即使规划能力很强的模型,其安全风险意识也相对较低,且模型规模的增大主要提升规划能力而非安全性。
Jonas Sievers, Mardavij Roozbehani
cs.AI
本文提出了一种广义合成控制方法, 用于需求响应服务中的基线估计. 该方法通过引入外生特征、滞后负荷等动态信息来增强经典合成控制框架, 并在实际数据集上展示了性能提升.
Harish Santhanalakshmi Ganesan
cs.AI cs.CL
本文提出了一种名为WorldDB的向量化世界图记忆引擎, 它通过引入可递归组合的"世界"节点、内容寻址的不可变节点以及作为写入时程序的边, 旨在解决现有向量存储和时序知识图谱系统在持久化记忆方面的局限性. 实验表明, 该引擎在长对话记忆评估基准上显著超越了现有技术.
Difan Jiao et al.
cs.AI
本文提出了一种名为SIREN的轻量级防护模型,用于检测大语言模型中的有害内容。该方法通过分析模型内部各层的表示来构建检测器,在多个基准测试上超越了现有方法。
Xinyu Ma et al.
cs.AI
本文提出了OGER框架, 通过整合离线教师指导与在线强化学习来改进LLM的推理探索能力. 实验表明该方法在数学和通用推理基准上优于现有基线.
Xirui Li et al.
cs.AI cs.CL
本文提出了一个名为ClawEnvKit的自动化环境生成流水线, 用于为类爪型智能体(Claw-like agents)按需创建多样且经过验证的训练与评估环境. 该流水线包含解析器, 生成器和验证器三个模块, 并基于此构建了首个大规模基准测试集Auto-ClawEval.
Terry Leitch
cs.AI cs.HC cs.LG
本文对云端与本地部署的大型语言模型在系统动力学领域的两个专门任务上进行了系统性评估. 实验表明, 云端模型在因果循环图提取任务上表现最佳, 而本地模型在模型构建步骤和反馈解释上也有不错表现, 但在错误修复方面存在明显短板.
Kevin Murphy
cs.AI
本文提出了一个用于二元预测的智能体系统 BLF, 其核心是结合了数值概率估计与自然语言证据摘要的 Bayesian linguistic belief state. 该系统通过分层多试验聚合与分层校准技术, 在 ForecastBench 基准测试中取得了领先的性能.
Shaden Alshammari et al.
cs.AI cs.DL cs.IR cs.LG
本文介绍了一个名为MathNet的大规模、多模态、多语言数学推理与检索基准数据集。该数据集包含大量奥林匹克级别的数学问题及其解答,并设计了三个评估任务。实验表明,当前最先进的模型在该基准上仍面临挑战。

cs.IR

Isha Motiyani, Abhishek Kumar, Tilak Kasturi
cs.IR cs.AI
本文提出了一种用于汽车领域查询理解的两阶段模块化系统. 该方法通过将任务分解为轻量级分类和针对性实体提取, 在效率与准确性上取得了显著提升.
Lorenz Brehme et al.
cs.IR cs.AI cs.CL
本文提出了一种名为RAG-DIVE的动态交互式评估方法, 用于评估Retrieval-Augmented Generation (RAG)系统在多轮对话中的表现. 该方法通过模拟用户交互来生成动态对话, 并包含对话生成、验证和评估三个组件, 实验表明它能有效捕捉系统在交互设置下的性能变化.
Mengzhu Chen et al.
cs.IR cs.AI
本文提出了一个名为FlexStructRAG的灵活结构感知检索增强生成框架。它通过联合构建知识图谱、超图和语义簇,支持多粒度、查询自适应的检索,以减少固定分块带来的语义碎片化问题。实验表明该方法在多个领域的基准测试中优于现有基线。
Hui Wu et al.
cs.IR cs.AI cs.CL
本文提出了一个用于多模态文档问答的自适应检索增强框架MARA. 该框架通过查询对齐的区域编码器和自反思的证据控制器, 改进了检索的精确性和证据选择的适应性. 在多个基准测试上取得了优于现有方法的性能.
Runwen You et al.
cs.IR cs.AI
本文提出了一个名为Paper2Data的LLM驱动流程, 用于从科学文献中大规模提取和结构化城市数据元数据, 并构建了UrbanDataMiner数据发现门户. 该方法在数据集识别和元数据字段填充上具有较高的召回率和精确度.
Ekaterina Lemdiasova, Nikita Zmanovskii
cs.IR cs.CL
本文通过系统诊断研究, 分析了在冷启动电影推荐场景下基于LLM的cross-encoder rerankers的性能. 研究发现, 与简单基线方法相比, 此类reranker存在检索覆盖率低, 曝光偏差严重和分数区分度小等关键失败模式, 并提出了混合检索策略等实用缓解建议.
Duan Ming Tao
cs.IR cs.AI
本文提出了一个名为 SciFACE 的重新排序框架,用于论文推荐,旨在实现可控的多样性。该框架通过训练两个独立的 cross-encoder 来分别建模论文的 Background 和 Method 两个层面,并在特定数据集上取得了优于基线模型 SPECTER 的效果。
Pierre Achkar, Tim Gollub amd Martin Potthast
cs.IR cs.DL
本文介绍了SR4CS,一个计算机科学领域的大规模系统综述数据集,旨在支持布尔查询生成、检索和筛选的自动化研究。该数据集包含大量综述、查询和元数据,并通过基线实验比较了不同检索范式的性能。
Abriel K. Moraes et al.
cs.IR cs.AI cs.CY
本文提出了一种基于多个LLM智能体的系统, 用于改进关于巴西劳动法的问答. 该系统通过专门的智能体处理法律的不同方面, 并结合RAG技术, 在自动评估和专家评估中显示出比单一LLM基线更好的效果.
Wenjie Zhou et al.
cs.IR cs.AI cs.CL
本文提出了一个名为RT-QA的动态评估框架,用于测试智能体在实时问答任务中的表现。该框架通过执行代码工作流来获取最新信息,并揭示了当前先进模型在实时信息检索方面存在显著不足。
Xiao Yue, Guangzhi Qu, Lige Gan
cs.IR cs.AI
本文提出了一种轻量级、无需大语言模型(LLM)的语义感知图检索框架LiteSemRAG. 该框架通过利用上下文token级嵌入构建异质语义图, 并在查询时进行两步语义感知检索, 在多个基准数据集上取得了与基于LLM的先进图RAG系统相竞争或更优的检索效果, 同时显著提升了效率.
Radoslav Ralev et al.
cs.IR cs.AI cs.CL
本文探讨了 dense retrieval 模型在处理 compositional edits 时的脆弱性. 通过在训练中引入结构化的负样本, 作者发现这虽然改善了表示空间的结构分离, 却损害了模型在 zero-shot 检索任务上的泛化性能.
Shuvam Banerji Seal et al.
cs.IR cs.AI
本文提出了一个名为AgriIR的可配置检索增强生成框架, 旨在以较低计算成本提供特定领域的可靠答案. 该框架采用模块化设计, 将信息获取过程分解为多个声明性阶段, 并通过一个面向印度农业的参考实现展示了其可行性.
Ryogo Hishikawa, Ichiro Kataoka, Shinya Yuda
cs.IR cs.CL
本文提出了一个无需微调的推荐框架LLMAR, 用于处理数据稀疏但文本丰富的工业B2B场景. 该框架利用LLM推理来标注用户潜在动机, 并通过反思循环进行自我修正, 在保持较低推理成本的同时, 在多个数据集上超越了基于训练的方法.
Mengjia Wu et al.
cs.IR cs.AI cs.DL
本文探讨了使用大型语言模型(LLMs)进行学术论文发表后质量评估的可行性。通过将模型输出与专家判断和引用指标进行对比,研究发现LLMs在粗粒度评估任务上表现良好,但在细粒度评分任务中表现下降。
Riccardo Terrenzi et al.
cs.IR cs.AI
本文提出了一种用于数据集搜索的智能混合检索参考架构, 结合了BM25词汇检索和基于reciprocal rank fusion的稠密检索, 并由一个LLM智能体进行协调. 该架构通过离线生成伪查询来增强元数据, 并分析了两种不同架构风格在质量属性上的权衡.
Dongzhe Fan et al.
cs.IR cs.AI
本文提出了一个名为GraphRAG-Router的框架,旨在通过分层路由策略协调异构的GraphRAG和生成器LLM,以降低知识密集型问答任务的成本。该框架结合了监督微调和强化学习进行优化,实验表明其能在减少大模型使用的同时保持性能。
Xing Wei, Yang Yu
cs.IR
本文提出了一种基于tensor manifold理论的几何统一图-向量融合框架, 用于AI-native学术文献检索. 该框架将文献图视为tensor manifold的离散投影, 并设计了若干核心模块以实现高效、可编程的检索.
Enock O. Ayiku, Evelyn Osei, Emebo Onyeka
cs.IR cs.AI cs.LG
本文研究了推荐系统中用户探索饱和的现象, 即当公平性驱动的探索超过某个点时, 用户效用不再提升甚至下降. 通过实验分析, 作者发现探索饱和点因用户而异, 特别是交互历史有限的用户更早达到饱和, 这表明统一的公平性策略可能对部分用户不利.
Yongkang Li et al.
cs.IR cs.CL
本文系统评估了基于LLM的dense retriever在generalizability和stability两方面的鲁棒性。研究发现,尽管此类模型在指令调优后表现优异,但在复杂推理任务上存在泛化性不足的问题,并且对语义扰动较为敏感。
Andrea Volpini, Elie Raad
cs.IR cs.AI
本文提出了RLM-on-KG系统,用于在知识图谱上进行基于LLM的自适应检索控制。研究发现,LLM控制器的优势取决于证据的分散程度和工具调用的复杂度,其核心架构将候选发现与排序分离。
Juyuan Wang et al.
cs.IR cs.AI
本文提出了一种名为HeadRank的解码无关的段落重排序框架, 通过熵正则化的注意力头选择, 硬相邻级别偏好对和分布正则化器, 将偏好优化从离散的token空间提升到连续的注意力域, 以解决注意力分数同质化问题. 该方法在多个基准测试中优于生成式和解码无关的基线, 并实现了\(\mathcal{O}(1)\)的前向推理复杂度.
Arnav Goel et al.
cs.IR cs.AI cs.CL
本文提出了一个名为HORIZON的新基准,用于评估在真实、跨域、长期场景下的用户行为建模。它基于大规模重构的Amazon Reviews数据,并设计了新的任务和评估指标,以更好地反映现实部署需求。
Sheng Zhang et al.
cs.IR
本文提出了一个名为MemSearch-o1的智能搜索框架, 旨在解决大型语言模型在自主搜索任务中因迭代思考-搜索循环而产生的记忆稀释问题. 该框架通过基于推理对齐的记忆增长与回溯机制, 动态构建细粒度的记忆片段并重组为全局连接的记忆路径, 从而更有效地激活模型的推理潜力.
Chi Zhang et al.
cs.IR
本文提出了一种结合多模态感知与多智能体协作的推荐过滤框架, 旨在解决传统LLM方法在识别视觉不当内容和避免"过度关联"幻觉方面的不足. 通过事实裁决管道和动态双层偏好图, 该系统在对抗性数据集上显著降低了误报率, 并在用户研究中提升了透明度和控制感.
Haocheng Ju et al.
cs.IR cs.LG
本文介绍了Matlas, 一个用于数学语句的语义搜索引擎. 它基于从大量论文和教科书中提取的数学语句及其依赖关系构建语料库, 并支持使用自然语言查询进行高效检索.
Qingcheng Zeng et al.
cs.IR
本文针对 code-switching (语码转换) 信息检索问题, 构建了人工标注的基准数据集 CSR-L 并进行了系统性评估. 研究发现, 即使对于强大的多语言模型, code-switching 也会导致显著的性能下降, 而标准的词汇扩展等缓解方法效果有限.
Md Toyaha Rahman Ratul et al.
cs.IR
本文提出了一个专门用于评估AI/ML领域“必引”文献推荐的大规模基准数据集MasterSet。该基准包含超过15万篇论文,并采用了一个三层标注方案来识别关键引用,实验表明现有检索方法在此任务上仍面临挑战。
Lei Guo et al.
cs.IR
本文提出了一种名为FedCRF的联邦跨域推荐方法, 旨在解决非重叠场景下的隐私保护跨域推荐问题. 该方法利用文本语义作为跨域桥梁, 通过联邦语义学习实现知识迁移, 并在多个真实数据集上验证了其有效性.
Jin Chen et al.
cs.IR
本文提出了一种名为RankUp的推荐系统架构, 旨在通过随机排列分割稀疏特征, 多embedding范式, 全局token整合等技术来缓解深层网络中的表示坍缩问题. 该架构已在微信多个场景中部署并带来了显著的GMV提升.
Junyoung Kim et al.
cs.IR cs.AI
本文提出了一种名为BAGEL的框架, 用于在预算约束下进行密集段落检索. 该方法利用Gaussian Process对稀疏的LLM相关性评分进行建模和传播, 以指导检索过程中的全局探索与利用.
Jianan Liu et al.
cs.IR
本文在中小企业(SME)的计算约束下, 比较了不同LLM推理架构在金融问答(Financial QA)任务上的表现. 研究发现, 架构选择比模型规模更重要, 并提出了一个混合部署框架以平衡准确性, 可审计性和效率.
Yunjia Xi et al.
cs.IR cs.AI cs.CL
本文提出了一种名为MARC的方法, 用于压缩大型语言模型(LLM)在推荐系统中产生的高维表示. 该方法通过引入模块化调整和任务解耦, 旨在解决压缩过程中观察到的中间层表示优势(MRA)问题, 从而生成更高效的表示. 在线A/B测试表明, 该方法在商业搜索广告场景中提升了效果.
Wuhan Chen et al.
cs.IR
本文提出了一种无需外部文本语料库的序列推荐框架MLTFR, 它通过用户引导的token过滤和基于Mixture-of-Experts的多LLM集成, 直接利用多个大语言模型的token嵌入来提升推荐性能. 实验表明该方法优于现有的序列推荐基线和对齐方法.
Lorenz Brehme, Thomas Ströhle, Ruth Breu
cs.IR cs.AI
本文提出了一种名为CARE的上下文感知评估策略, 用于评估RAG系统中的多跳推理检索器. 在HotPotQA等数据集上的实验表明, CARE在评估多跳查询时优于现有方法, 尤其对于参数更多、上下文窗口更大的模型效果更明显.
Rahul Mehta et al.
cs.IR cs.AI cs.CL
本文提出了一种用于文档内查询自动补全(DocQAC)的自适应trie引导解码框架。该方法利用用户查询前缀和文档上下文来引导语言模型生成高质量的补全建议。
Runhao Jiang, Renchi Yang, Donghao Wu
cs.IR cs.LG
本文提出了一种名为BACO的快速有效框架, 用于压缩推荐系统中的embedding tables. 该方法通过平衡的co-clustering对用户和物品进行分组, 使得相似的用户/物品共享codebook中的embedding, 从而在显著减少参数的同时保持推荐精度.
Sara Ghasvarianjahromi et al.
cs.IR cs.IT
本文研究了在token擦除下的RAG式搜索与检索模型. 通过信息论方法分析了查询表示部分丢失时的远程文档检索问题, 并给出了检索错误概率的近似与上界. 数值实验验证了分析结果, 并表明将更高冗余度分配给语义重要的查询特征能提升检索可靠性.
Ghazal Khalighinejad et al.
cs.IR cs.AI cs.CL
本文通过构建基于LaTeX源码的新基准ArXivDoc, 比较了文本、图像及多模态表示在科学文档检索中的效果. 研究发现, 基于图像的整体文档表示效果不佳, 而基于文本的表示最为有效.

cs.CL

Joycelyn Teo et al.
cs.CL cs.AI cs.SI
本文提出了首个从社交媒体中提取多模态声明的基准, 并评估了现有MLLMs在此任务上的表现. 针对基线模型的不足, 作者引入了MICE框架以更好地建模修辞意图.
Krzysztof Fonal
cs.CL
本文在 Apple Silicon 上扩展了 MLX-LM 框架,通过 Universal Assisted Generation (UAG) 实现了跨 tokenizer 的 speculative decoding。实验评估了以波兰语模型 Bielik 11B 为目标模型,搭配不同草案模型的性能,发现上下文感知的 token 翻译能提升接受率,但在统一内存架构上,由于内存带宽限制,理论加速效果未能完全实现。
Xiaoli Yang et al.
cs.CL cs.AI cs.CV
本文提出了一种新的EEG-to-text解码框架Brain-CLIPLM, 它基于语义压缩假设, 将解码过程分解为语义锚点提取和基于检索的句子重建两个阶段. 该方法在Zurich语料库上取得了优于直接解码基线的性能, 表明从EEG信号中恢复压缩的语义内容比重建完整句子更为可行.
Junzhao Zhang et al.
cs.CL cs.AI
本文构建了一个面向中文社交媒体、包含多级标注的细粒度多模态讽刺检测数据集CFMS, 并提出了一个基于强化学习的上下文学习策略来优化示例选择。实验表明该数据集和方法在相关任务上优于现有基线。
Hiroshi Matsubara et al.
cs.CL cs.CR
本文通过比较多种基于风格特征的作者归属方法在日语网络评论数据上的表现, 评估了其在威胁情报中行为者分析场景的适用性. 实验表明, 随着作者数量增加, 传统的TF-IDF结合逻辑回归方法在准确性、稳定性和计算成本上优于基于BERT的微调方法.
Nitin Choudhury et al.
cs.CL cs.CY
本文提出了一个名为GoCoMA的多模态框架, 用于对大语言模型生成的代码进行来源归属. 该框架通过双曲空间融合代码风格特征与二进制预执行文件的图像表示, 并在基准测试中超越了单模态和欧几里得多模态基线.
Yunshuo Tian et al.
cs.CL cs.LG
本文提出了一种结合梯度优化与不可微分模型的协同训练框架, 通过强化学习建立反馈循环. 实验表明该方法在多个医学数据集上提升了模型性能.
Zhuo Chen et al.
cs.CL cs.LG
本文对大规模语言模型预训练中的数据混合方法进行了系统性综述. 文章将数据混合优化形式化为一个双层问题, 并提出了一个细致的分类法, 将现有方法分为静态混合与动态混合两大类进行梳理. 同时, 文章指出了当前研究在跨领域可迁移性、评估标准化以及性能与成本权衡等方面面临的挑战, 并展望了未来的研究方向.
Iqra Ali et al.
cs.CL
本文提出了一个用于纵向建模的指令微调框架 LiFT, 通过统一的指令模式和渐进式课程学习来提升大语言模型在时序文本推理任务上的表现. 实验表明, LiFT 在不同规模的模型和多个数据集上均能有效提升上下文学习能力, 特别是在分布外数据和少数变化事件上.
Mohammad AL-Smadi
cs.CL
本文提出了一种针对阿拉伯语伊斯兰继承法推理任务的多阶段QLoRA微调方法。该方法通过在特定领域数据上进行预适应和结构化输出训练,使较小规模的语言模型能够有效处理复杂的法律推理任务。
Vedant Jawandhia et al.
cs.CL cs.AI
本文提出了GeoRepEval框架, 用于评估大语言模型(LLMs)在几何问题不同表述(如Euclidean, coordinate, vector forms)下的鲁棒性. 研究发现, 仅改变问题表述就会导致模型准确率出现显著差异, 表明当前模型依赖于表述特定的启发式方法而非抽象的几何推理.
Jaafer Klila et al.
cs.CL cs.AI cs.LG
本文探讨了将UMLS知识库中的结构化生物医学知识注入语言模型的两种策略: 持续预训练和GraphRAG. 实验表明, 持续预训练对基础模型BERT有提升, 而GraphRAG方法则能在不重新训练的情况下显著提升LLaMA模型在问答任务上的性能.
Boshui Chen et al.
cs.CL cs.AI
本文提出了一种名为HalluSAE的框架, 用于检测Large Language Models (LLMs)中的幻觉现象. 该方法将生成过程建模为在势能景观中的轨迹, 通过sparse autoencoders定位关键转变区域, 并利用对比归因和线性探测来识别与幻觉相关的稀疏特征.
Timothy B. Higgins, Antonios Mamalakis, Chirag Agarwal
cs.CL cs.CV cs.LG physics.ao-ph
本文提出了一个用于评估视觉语言模型在天气预报文本生成任务上性能的数据集SynopticBench和评估框架SPACE. 实验表明, 现有评估指标在该领域存在敏感性, 这有助于推动天气与气候文本生成的进一步研究.
Smit Nautambhai Modi et al.
cs.CL cs.AI cs.LG cs.SD
本文提出了一个名为EchoChain的基准测试,用于评估语音助手在实时全双工交互中处理用户中断时的状态更新推理能力。该基准揭示了模型在中断后回复中存在的几种典型错误模式,并表明当前模型在此任务上仍有很大改进空间。
Yang Liu et al.
cs.CL
本文介绍了SemanticQA, 这是一个用于评估语言模型在语义短语处理任务中表现的基准测试套件. 该基准整合了现有的多词表达式资源, 并对其进行了重组和分类.
Kevin Stowe, Kailash Patil
cs.CL cs.AI
本文评估了多种机器生成文本检测模型在多个数据集和评估指标下的表现. 研究发现, 模型性能高度依赖于数据集和评估指标的选择, 且没有单一系统在所有领域都表现优异.
Livia Qian, Gabriel Skantze
cs.CL cs.AI cs.LG
本文提出了一个两阶段框架, 通过对比学习微调大语言模型来对齐对话上下文和反馈信号(backchannel)的表征. 该方法在上下文-反馈信号检索任务上优于先前方法, 并且学习到的嵌入与人类感知判断更为一致.
Weihua Du et al.
cs.CL cs.AI cs.LG
本文提出了一个名为AdaExplore的agent框架, 用于生成高性能计算kernel代码. 该框架通过failure-driven adaptation和diversity-preserving search两个阶段, 利用执行反馈进行自我改进, 无需额外微调. 实验表明其在kernel运行时优化基准测试上取得了显著的性能提升.
David Alonso del Barrio et al.
cs.CL
本文通过焦点小组和自然语言处理技术, 分析了法语移民群体对本地新闻的参与度及其需求与媒体报道内容的匹配情况. 研究发现, 尽管本地新闻频繁报道事件, 但在重要议题覆盖、情感倾向和文本可读性方面仍存在与移民群体需求不匹配的差距.
Christina Chance et al.
cs.CL
本文通过定量与定性方法, 研究了 LGBTQIA+, Black 和 women 等社群对 re-claimed slur 的态度. 研究发现社群内部对 slur 使用的判断存在显著分歧, 且自动仇恨言论检测工具与社群判断之间存在错位.
Maitrey Mehta et al.
cs.CL
本文提出了一种基于可解释性的词汇扩展方法, 旨在解决非拉丁文字语言在大型语言模型中面临的"token过度碎片化"问题. 研究质疑了传统的基于频率的候选词选择方法, 并展示了基于可解释性的方法在性能与token效率权衡上的优势, 同时提出了一种名为FragMend的新方法来进一步提升效率.
Anik Saha et al.
cs.CL
本文提出了一个用于从社交媒体流中过滤和解析献血请求的多平台框架CBRS. 它使用了一个包含双语数据集的成本效益高的双层架构, 并在过滤和解析任务上取得了高准确率.
Yufei Tao, Ameeta Agrawal
cs.CL cs.AI
本文提出了一种解码时适配器 NWCAD, 旨在防止大型语言模型在使用外部上下文时发生中性回归(neutral regression), 即模型在上下文无信息时错误地修改原本正确的输出. 该方法通过一个两阶段门控机制, 在上下文无信息时回退到无上下文解码, 否则在不确定时采用上下文感知解码.
Nasim Al-wagieh, Mohammed Q. Shormani
cs.CL cs.AI
本文通过混合方法研究了ChatGPT在文学翻译中的表现及人工后期编辑的作用. 研究发现, AI在翻译速度上有优势, 但在处理文化、风格和修辞层面仍存在局限, 强调了人机协作的必要性.
Christopher Ormerod, Gitit Kehat
cs.CL cs.IR
本文提出了一种结合文本分类器和音频分类器的混合框架, 用于检测学生口头回答中的潜在危险信号. 该方法通过分析回答的内容和韵律特征, 旨在提升传统自动评分系统的安全性, 辅助人工审核.
Ryan T. Woo et al.
cs.CL cs.AI cs.HC
本文提出了一个基于理论驱动的模拟学习者来评估教育阅读材料自适应个性化效果的框架. 该系统从开放教材构建知识本体, 并利用模拟读者模型进行学习与评估, 实验表明自适应阅读在不同学科中的效果存在差异.
Sree Bhattacharyya et al.
cs.CL cs.CY
本文评估了大型语言模型(LLMs)在表达社会情感时与人类文化规范的差异。研究发现,模型在表达社会情感时存在系统性偏差,且响应缺乏多样性,这对其在跨文化情感语境中的应用构成了限制。
Chaewan Chun, Delvin Ce Zhang, Dongwon Lee
cs.CL cs.CY
本文探讨了音频平台上的虚假信息问题, 指出其兼具口语性和对话性的独特结构, 使得传统基于文本的 fact-checking 方法失效. 作者主张需要围绕音频的这些特性重新设计验证流程.
Jiarui Han
cs.CL cs.AI
本文提出了StageMem, 一个将记忆视为有状态过程而非被动存储库的生命周期管理内存框架. 它将记忆组织为三个阶段, 并引入置信度和强度等显式模型, 以在受控压力下更好地管理长期语言模型系统中的记忆内容.
Avinash Goutham Aluguvelly
cs.CL cs.AI
本文研究了非正式文本形式对自然语言推理(NLI)模型性能的影响, 通过四种文本变换(俚语替换, 表情符号替换, Gen-Z填充词及其组合)在ELECTRA-small和RoBERTa-large模型上进行实验. 研究发现, 不同的非正式形式导致性能下降的机制不同, 并提出了针对性的缓解策略, 包括预处理和数据增强.
Yixuan Tang, Yi Yang
cs.CL
本文提出了一种名为Pico的数据无关方法, 用于校准LoRA合并前输出侧矩阵\(B\)中的过度共享方向, 以减轻合并干扰. 该方法可直接嵌入现有合并方法, 在多个基准测试中提升了平均准确率.
Jinchang Zhu et al.
cs.CL
本文提出了一种受生物记忆机制启发的记忆架构HeLa-Mem, 用于增强LLM agent的长期记忆能力. 它通过动态图模型和Hebbian学习来模拟记忆的关联与巩固过程, 在减少上下文token使用的同时提升了任务表现.
Ziwen Pan et al.
cs.CL
本文针对大型语言模型(LLMs)在安全微调后可能出现的"伤害漂移"问题, 提出了一种名为DART的蒸馏-审计-修复训练框架. 该方法旨在提升模型在涉及人口统计差异问题上的回答准确性与安全性.
Rudra Ranajee Saha, Laks V. S. Lakshmanan, Raymond T. Ng
cs.CL
本文提出了一种基于社区的无监督图方法,用于组织和总结争议性话题中的论点. 该方法通过构建包含多种关系类型的交互图,并应用社区检测来识别和简化论点群落,从而帮助用户理解复杂的论证格局.
Jiang Zhou et al.
cs.CL cs.AI
本文提出了一种名为EA-RLVR的训练框架,用于优化大型语言模型在跨文化实体翻译中的表现。该方法通过可验证的实体级奖励信号和轻量级结构门来引导模型学习稳健的推理过程,并在未见实体上取得了翻译准确率的提升。
Qinhao Chen, Linyang He, Nima Mesgarani
cs.CL
本文提出了一个名为PIE的跨层transcoder-native框架, 用于高效发现circuit. 该框架通过Feature Attribution Patching (FAP)等方法对特征进行剪枝和评估, 在多个任务和模型上实现了高压缩比的行为保真度.
Yuhe Wu et al.
cs.CL cs.AI
本文提出了一个名为PRISM的基准测试, 用于诊断LLM幻觉的产生机制. 它将幻觉分解为知识缺失, 知识错误, 推理错误和指令遵循错误四个维度, 并在24个主流LLM上进行了评估.
Yuheng Chen et al.
cs.CL
本文研究了大型语言模型在多项选择题约束下的安全性失效问题. 研究发现, 将有害请求重新表述为所有选项都不安全的强制选择题, 可以系统地绕过模型的拒绝行为, 导致违反安全策略的响应率显著上升.
Yangfan Ye et al.
cs.CL
本文提出了一种名为x1的推理模型系列, 能够根据每个实例自适应地选择优势语言进行推理. 通过对比同一输入的不同语言推理轨迹进行训练, 实验表明自适应多语言推理在数学推理和文化相关任务中具有益处.
Weiyu Ma et al.
cs.CL cs.LG
本文提出了一种Freshness-Aware Prioritized Experience Replay方法,用于提升大型语言模型和视觉语言模型在强化学习中的样本效率。该方法通过引入基于指数衰减的年龄因子来解决传统优先级经验回放中优先级过时的问题,并在多个任务上验证了其有效性。
Ruijun Huang et al.
cs.CL
本文提出了一个名为MeasHalu的框架,旨在缓解大型语言模型在从科学文献中提取测量数据时产生的幻觉问题。该框架通过细粒度的错误分类、两阶段微调策略和渐进式奖励课程来提升提取的准确性,并在基准测试上取得了更好的效果。
Wei-Chi Wu et al.
cs.CL
本文评估了多语言大语言模型中基于翻译的prompting策略在不同语言和任务上的有效性. 研究发现, 没有单一策略是普遍最优的, 并引入了一个轻量级分类器来为每个实例动态选择最优的prompting策略.
Bo Li et al.
cs.CL
本文提出了一种名为MNAFT的新方法, 用于对多模态大语言模型进行微调以提升图像翻译任务的效果. 该方法通过分析神经元激活来识别并选择性微调与语言处理相关的特定神经元, 在多个基准测试中取得了优于现有方法的表现.
Weixiang Zhao et al.
cs.CL
本文探讨了经验驱动自进化智能体(agent)中的安全风险. 研究发现, 仅从良性任务中积累的经验也可能在高风险场景下损害安全性, 揭示了当前自进化方法在安全与效用之间存在权衡.
Jan Grebík et al.
cs.CL cs.AI cs.LG cs.LO
本文介绍了一个名为Bolzano的多智能体LLM系统, 该系统通过协调证明者智能体与验证者智能体之间的多轮交互, 并维护跨轮次的持久知识库, 辅助完成了数学和理论计算机科学中的六个问题. 其中四项成果达到了可发表的研究水平, 三项成果主要由系统自主完成.
Yifu Huo et al.
cs.CL cs.LG
本文提出了一种名为Steering Probability Squeezing (SPS)的训练范式,用于增强大型语言模型在强化学习中的探索能力。该方法通过交替使用强化学习和逆强化学习来重塑轨迹分布,从而提升多样本推理性能。
Yuxuan Ouyang et al.
cs.CL
本文构建了一个多语言数据集BiasedTales-ML, 用于分析大语言模型生成故事中的叙事属性分布. 通过一个结构化的生成-提取流程和多维分布分析框架, 研究发现叙事模式在不同语言间存在显著差异, 表明以英语为中心的评估存在局限性.
Antonio Valerio Miceli Barone, Poon Tsz Nok
cs.CL cs.AI cs.LG cs.PL
本文提出了一种基于语义等价 self-play 与形式化验证的框架,用于提升大语言模型在 Haskell 代码上的推理能力。该方法通过生成器与评估器的对抗训练,并利用 Liquid Haskell 进行验证,在相关基准测试上取得了性能提升。
Huije Lee et al.
cs.CL cs.AI
本文提出了一个基于persona-guided LLM agents的框架来合成有害内容, 用于对有害内容检测系统进行更鲁棒的评估. 该方法通过构建结合人口统计身份、主题兴趣和有害策略的二维用户persona, 模拟多样且情境化的有害交互, 生成的合成内容在危害性、挑战性和多样性方面均表现良好, 比现有基准更难被检测.
Nisrine Rair et al.
cs.CL cs.AI
本文提出了一种在主观NLP任务中用于诊断标注模式的方法, 该方法在确定最终标注标签(gold label)之前, 利用多位标注者的标准判断来审计专家设计的标注方案(schema). 该方法能够区分标准不稳定和类别系统性重叠这两种失败模式.
Pierre Beckmann, Patrick Butlin
cs.CL cs.AI
本文探讨了大型语言模型中的个体化问题, 即如何识别模型中的"心智"实体. 作者通过机制可解释性方法, 结合对persona vectors等近期实证研究的分析, 提出了几种可能的解释观点.
Li Zheng et al.
cs.CL
本文提出了一种用于多模态欺骗检测的动态情感与人格分析方法。通过构建新的数据集DDEP并设计可靠性加权融合框架Rel-DDEP,该方法在欺骗、情感和人格的联合检测任务上取得了性能提升。
Weijie Wan, Jiangjiang Zhao
cs.CL cs.AI
本文提出了一种通过选择性参数优化来提升大语言模型任务适应效率的方法. 该方法通过评估参数重要性, 在微调时固定对通用能力至关重要的"核心参数", 仅更新"非核心参数", 从而在多个领域任务上缓解了灾难性遗忘问题.
Ying Su et al.
cs.CL
本文通过构建一个包含10.3K个实例的道德数据集,并形式化了四种对抗性攻击,来研究大型语言模型在多元价值下的道德内容生成鲁棒性。实验结果表明,LLMs和防护模型对这些微妙的道德感知攻击存在关键漏洞。
Yue Wu, Jian Huang
cs.CL cs.LG
本文提出了一种用于扩散语言模型的稳定性加权解码方法, 通过量化 token 在连续去噪步骤中的预测分布差异来评估其稳定性, 并将此稳定性作为权重调制任意基于分数的解码策略. 实验表明该方法能提升代码生成和数学推理任务的准确性.
Skylar Zhai, Jingcheng Liang, Dongyeop Kang
cs.CL cs.AI
本文提出了一种用于大语言模型的校准性拒绝与澄清方法。针对模型可能对无法回答的查询进行猜测或产生幻觉的问题,作者设计了一种可验证的强化学习奖励机制,该机制联合优化了在可回答问题上的正确回答、在不可回答问题上的明确拒绝以及拒绝后提供语义对齐的澄清说明。实验表明,训练得到的模型在多个基准测试上显著提升了拒绝和澄清能力,同时保持了在可回答问题上的性能。
Michelle Star, Andrew Aquilina, Yu-Ru Lin
cs.CL
本文提出了一个基于多轮社会模拟的框架, 用于审计大型语言模型(LLMs)在逐步披露情境下的社会支持策略. 通过将支持寻求叙事分解为片段并逐轮输入模型, 使用社会支持行为编码(SSBC)对响应进行分类, 并利用线性探针分析模型内部表征以估计用户困扰, 研究发现支持策略的构成会随估计的困扰程度发生系统性变化, 且社区语境独立地塑造了模型行为.
Antonio De Santis et al.
cs.CL cs.AI
本文提出了Implicit Information Extraction (IIE)任务,并设计了一个基于LLM的流程来从文本中提取隐含信息并构建知识图谱。通过将两个LLM的表现与人类标注进行对比,研究发现模型在提取覆盖范围上存在不足,并且模型与人类在判断隐含信息的保守程度上随语境类型不同而存在差异。
Jiaqing Liang et al.
cs.CL
本文提出了一种名为GenericAgent的通用自进化LLM智能体系统,其核心设计原则是最大化上下文信息密度。该系统通过精简工具集、分层按需记忆、自进化机制以及上下文截断与压缩层来实现这一目标,旨在解决长程任务中上下文信息过载与经验流失的问题。实验表明,该智能体在多项指标上优于现有系统,且消耗的token和交互次数更少。
Disen Liao, Freda Shi
cs.CL
本文探讨了 subword tokenization 如何削弱语言模型对 phonological knowledge 的编码能力. 作者提出了 STAD 这一度量来量化这种影响, 并设计了一种基于 IPA 的微调方法来提升模型的 phonological awareness.
Refael Shaked Greenfeld, Reut Tsarfaty
cs.CL cs.AI
本文针对形态丰富语言(MRL)中的指代消解(CR)问题, 构建了首个现代希伯来语综合数据集KibutzR, 并提出了一种新的评估协议. 实验表明, 现有模型在处理希伯来语未分词文本时性能显著下降, 且表现趋势与英语相反.
Md Shamim Ahmed et al.
cs.CL
本文针对临床AI中的"出处鸿沟"问题, 提出了HEG-TKG系统. 该系统通过构建分层的、基于证据的时间知识图谱来确保临床声明的可验证性, 在实验中实现了100%的证据可追溯性.
Yupeng Qi et al.
cs.CL
本文提出了一种名为Adaptive Contrastive Decoding (AdaCD)的训练无关方法, 用于缓解大语言模型(Large Language Models)对无害查询的过度拒绝(over-refusal)问题. 该方法通过对比不同安全级别系统提示下的模型输出分布, 动态调整拒绝与非拒绝token的生成概率, 在降低无害查询拒绝率的同时, 保持对恶意查询的高拒绝率.
Andrei-Marius Avram et al.
cs.CL
本文提出了一个面向罗马尼亚语和意大利语的多领域多语言情感分析数据集RoIt-XMASA, 并设计了一个多目标对抗训练框架来处理跨语言和跨领域的挑战. 实验表明, 所提出的方法在XLM-R模型上取得了优于基线的性能, 并对比了基于提示的大语言模型与任务特定微调之间的权衡.
Jiayuan Liu et al.
cs.CL cs.AI cs.MA
本文针对多智能体大语言模型(LLM)在开放环境中易受对抗性提示注入攻击的问题,揭示了基于响应级别聚合(如多数投票)的系统性脆弱性。作者提出了一种Token-Level Round-Robin协作方法,通过理论分析和实验验证,证明了该方法在对抗性智能体占多数时仍能保持鲁棒性。
Hangxiao Zhu et al.
cs.CL
本文提出了一个用于科学影响力预测的多维度、多领域基准数据集SciImpact, 它整合了多种数据源, 涵盖了从引用量到奖项、媒体关注等不同形式的影响力. 作者评估了多种大语言模型在该基准上的表现, 发现经过多任务监督微调的小模型可以超越更大的模型.
David Graus
cs.CL cs.AI
本文研究了使用中间结构化表示来改进基于LLM从法律文本生成可执行决策模型的方法. 通过结构相似性和结果等价性两个维度进行评估, 发现输入/输出约束能显著提升性能, 而语义角色标签的改进有限.
Lin Zhong et al.
cs.CL
本文构建了首个统一标注情感、思维风格、立场和意图四个维度的基准CognitiveBench, 揭示了LLMs在联合多维度认知建模上的性能瓶颈. 作者将瓶颈归因于认知状态层次结构所需的指数表示空间与LLMs欧氏空间多项式增长之间的不匹配, 即"Cognitive Crowding".
Lin Zhong et al.
cs.CL
本文提出了一个用于情感支持对话中认知扭曲诊断与干预的框架 CoPoLLM,并构建了标注数据集 CogBiasESC。实验表明该框架在诊断准确性和干预效果上优于现有基线。
Xiaoyong Mei et al.
cs.CL cs.AI
本文提出了一种结合显式推理与奖励优化的新框架, 用于提升多角色对话摘要的忠实度与人类偏好对齐. 该方法通过从大教师模型中提取结构化推理轨迹进行监督微调, 并设计融合多种准则的奖励函数进行优化, 在多个基准上验证了其在事实忠实度方面的提升.
Hongye Liu, Liang Ding, Ricardo Henao
cs.CL
本文提出了一种基于评分排名的损失函数, 用于在文本摘要生成中实现对各质量维度(如完整性、简洁性)的细粒度控制. 该方法在多个预训练模型上验证有效, 能在保持整体摘要质量的同时, 对特定维度进行优先排序.
Hongye Liu, Dhanajit Brahma, Ricardo Henao
cs.CL
本文提出了一个无需参考摘要、人工标注或昂贵模型即可生成摘要个体与平均代理分数的通用框架, 并引入了一种名为group isotonic regression binning (GIRB)的校准方法, 以调整原始预测分数, 使其与真实评估指标更一致. 该方法主要针对摘要评估等连续值任务, 实验表明其在多个数据集上优于现有基线.
Rudra Ranajee Saha, Laks V. S. Lakshmanan, Raymond T. Ng
cs.CL
本文提出了一种用于表格数据文档声明验证的多智能体框架 MACE. 该框架包含 Planner, Executor 和 Verifier 三个智能体, 采用零样本思维链设置, 在减少参数量的同时取得了有竞争力的性能, 并提供了可解释的验证过程.
Priya Gurjar, Md Farhan Ishmam, Kenneth Marino
cs.CL cs.AI
本文提出了一种无需训练的框架 DORA Explorer, 用于提升 LLM 在序列决策任务中的探索能力. 该方法通过生成多样化的候选动作并利用可调参数进行选择, 在 Multi-Armed Bandit 和文本冒险环境 TALES 中取得了性能提升.
Hanlin Wang et al.
cs.CL cs.AI cs.RO
本文针对embodied agents中存在的belief inertia问题, 提出了一个名为Estimate-Verify-Update (EVU)的主动干预机制. 该机制通过预测、验证和更新显式的文本信念状态, 旨在帮助agent更好地根据环境反馈调整其内部信念, 从而在多个embodied任务基准上提升了任务成功率.
Li Zheng et al.
cs.CL
本文提出了一种识别大语言模型中情感与修辞相关神经元并进行自适应掩码的方法, 用于实现细粒度的表达引导. 实验在多个数据集上验证了该框架的有效性.
Seungmin Lee et al.
cs.CL cs.AI
本文提出了一种名为REZE的表示正则化框架, 用于在领域自适应的文本嵌入预微调中控制表示偏移. 该方法通过特征空间分解和自适应软收缩来抑制任务引入的噪声, 并在多个基准测试中展现了优于标准方法的性能.
Yihang Li, Chenhui Chu
cs.CL
本文提出了一个用于评估会议有效性的新范式, 重点关注时间细粒度分析. 作者构建了AMI-ME数据集并开发了一个基于LLM的自动评估框架, 为会议分析任务建立了基准.
Ziqing Wang, Kaize Ding
cs.CL
本文提出了一种名为HopRank的自监督LLM微调框架, 用于文本属性图(TAGs)上的少样本节点分类. 该方法将节点分类重新表述为链接预测任务, 利用图拓扑中的同质性先验构造偏好数据进行训练, 并在推理时通过预测节点与带标签锚点的连接偏好进行分类.
Lingyan Wu et al.
cs.CL
本文提出了首个针对医学领域的Process-Level Reward Models (PRMs) 评测基准MedPRMBench。该基准基于临床推理蓝图构建,包含细粒度的错误类型分类和严重性分级,并展示了其作为可插拔验证器对下游医学问答任务的提升效果。
Shuyue Stella Li et al.
cs.CL cs.AI
本文提出了一个用于研究长期个性化问题的基准数据集HorizonBench, 该数据集通过结构化心理状态图生成包含6个月对话历史和真实偏好演变来源的模拟对话. 在25个前沿模型上的评估表明, 当前模型在跟踪用户状态演变方面存在显著瓶颈, 最佳模型准确率仅为52.8%.
Poorva Garg et al.
cs.CL cs.AI cs.PL
本文提出了一种名为"probabilistic programs of thought"的新框架, 旨在减少大语言模型(LLM)在代码生成和数学推理任务中所需的昂贵采样次数. 该方法利用模型生成程序时的下一个token概率, 构建一个能紧凑表示指数级数量确定性程序的概率程序, 从而以极低的计算开销获得更多样本.
Jingyi Ren et al.
cs.CL
本文提出了一个用于评估大语言模型区分数据不确定性与模型不确定性能力的基准UA-Bench, 并发现前沿模型在此任务上表现不佳. 作者进一步提出了一种轻量级的数据合成与强化学习策略来提升模型的不确定性归因能力.
Yangsong Lan, Hongliang Dai, Piji Li
cs.CL
本文提出了一种通过模型内部显著性来压缩Chain-of-Thought推理步骤的方法CRISP. 该方法利用推理终止token的attention模式来区分必要步骤与冗余信息, 从而在保持准确性的同时显著减少token数量.
Tiankai Yang et al.
cs.CL cs.AI
本文提出了一种针对不同有害内容类别进行自适应安全对齐的方法 Cat-DPO. 该方法通过为每个类别设置独立的安全裕度, 改进了直接偏好优化, 从而在整体上提升了模型的有用性和无害性.
Juhyeon Lee et al.
cs.CL cs.AI cs.HC cs.IR cs.LG
本文提出了RoTRAG, 一个用于多轮对话有害内容检测的检索增强生成框架. 该框架通过检索外部的人类编写的道德规范(Rules of Thumb)作为显式的规范性证据, 来辅助LLM进行逐轮推理和最终的有害程度分类, 并引入了一个轻量级的路由分类器来提升效率.
Alberto Testoni, Iacer Calixto
cs.CL cs.AI
本文研究了患者的社会身份描述符(如性取向和宗教信仰)如何影响大型语言模型(LLM)在医学问答中的准确性和不确定性校准。研究发现,这些身份标记会导致校准危机,特别是"同性恋"标记会引发性能下降,并对基于置信度的临床工作流程构成风险。
Kyeongman Park, Minha Jhang, Kyomin Jung
cs.CL cs.LG
本文提出了一种模型无关且计算高效的生成策略UAG, 通过惩罚已生成输出之间的相似性来增强多分支多样性. 该方法在扩散模型和Transformer模型上均能有效提升多样性, 同时显著降低计算开销.
Jiaang Li et al.
cs.CL
本文提出了一种名为QREAM的文档重写方法, 旨在改善检索增强生成(RAG)中检索文档的呈现方式. 该方法通过风格控制使文档更符合问题导向, 从而提升大型语言模型对事实性信息的利用效率, 并作为一个即插即用模块在现有RAG流程中带来性能提升.
Shiyao Xie, Jian Du
cs.CL
本文提出了一种Neuro-Symbolic框架,用于自动检测多病共存临床指南中的推荐冗余与冲突。该方法将自然语言转化为符号逻辑,并使用SAT求解器进行验证,在特定基准测试中取得了优于大型语言模型的性能。
Glyn V. Morrill, Oriol Valentín
cs.CL
本文倡导逻辑计算语言学, 并提供了一个逻辑语义接口. 它汇集了作者在 type logical grammar 领域二十多年的研究工作, 并加入了新的想法和材料.
Wei He
cs.CL cs.CV
本文提出了DIVA基准和Semantic Alignment Gap (\(\Delta\))度量,用于量化Vision-Language Models在字面义与习语义视觉表征上的差异。研究发现模型存在Literal Superiority Bias,表明更高的视觉保真度可能削弱符号对齐,并建议需要图标抽象来改善组合性理解。
Dongwook Lee et al.
cs.CL cs.AI cs.SD
本文提出了TPI-Train数据集和TPI-Bench评估框架,旨在提升语音助手对第三方语音干扰的鲁棒性。这项工作为克服语音模型中依赖文本语义的局限性提供了资源。
Yamen Ajjour et al.
cs.CL cs.AI
本文构建了首个用于评估大语言模型在计算论证任务上性能的基准ArgBench, 它整合了33个现有数据集. 作者利用该基准评估了五个大语言模型家族在46个相关任务上的表现, 并系统分析了few-shot示例, 推理步骤, 模型规模和训练技能等因素的影响.
Zhanyu Shen et al.
cs.CL
本文提出了一种名为AnchorMem的新型记忆框架, 用于增强大型语言模型在长期交互中利用历史经验的能力. 该方法通过将检索单元(锚点事实)与生成上下文解耦, 并构建关联事件图来整合记忆, 在基准测试中取得了优于基线模型的表现.
Finn Schmidt et al.
cs.CL
本文通过构建一个跨领域错误标注数据集(CD-ESA), 系统性地研究了机器翻译自动评估指标在领域迁移下的鲁棒性. 研究发现, 在考虑人类标注者之间的差异后, 这些指标在未见领域上的表现会显著下降.
Zeguan Xiao et al.
cs.CL
本文提出了一种名为REGLU的参数高效遗忘学习方法, 通过利用表示空间的几何特性来改进LLM的遗忘效果. 该方法设计了基于表示的LoRA初始化策略和正则化损失, 以减少对保留知识的影响, 并在基准测试中展现了优于现有方法的性能.
S.A. Desimone, L. Alonso Alemany
cs.CL
本文提出了一种通过对比合成文本生成与统计分析来发现不同社会群体相关语言模式的方法框架. 该方法旨在刻画细微的偏见表达, 而非基于预设词表进行诊断.
Lexuan Liang et al.
cs.CL cs.AI
本文提出了一种用于文本属性图(text-attributed graphs)的双粒度文本编码器DuConTE。该模型通过级联两个预训练语言模型,在词粒度和节点粒度分别编码语义,并在自注意力计算中利用图拓扑结构进行约束。实验表明,该方法在多个基准数据集上取得了先进的性能。
George Drayson
cs.CL cs.AI
本文介绍了Jupiter-N, 这是一个基于开源大模型Nemotron 3 Super进行后训练的混合推理模型. 其训练目标包括提升智能体能力, 对齐英国文化规范以及支持威尔士语, 并通过特定的数据策略来保留基础模型的能力.
Raman Saparkhan et al.
cs.CL cs.AI cs.LG
本文提出了一种结合 Chain-of-Thought (CoT) 和 Program-of-Thought (PoT) 的混合集成方法,用于提升大语言模型的推理效率。该方法显著减少了 Self-Consistency 技术所需的采样数量,大部分任务仅需两个样本即可处理。
Szu-Chi Chen et al.
cs.CL cs.AI cs.SD eess.AS
本文提出了一种用于语音到语音翻译中保留非语言发声(如笑声和哭泣)的方法 MoVE. 它通过一个混合专家架构和高效的数据合成流程, 在数据有限的情况下提升了翻译输出的表现力和自然度.
Tianyi Huang et al.
cs.CL
本文提出了一种称为compositional selective specificity (CSS)的后处理层, 用于控制agentic systems中声明的精确度. 该方法通过将回答分解为声明, 提出更粗略的回退(backoff)选项, 并以校准后的最具体可接受级别输出每个声明, 从而在LongFact和HotpotQA任务上改善了风险与效用的权衡.
Ruiyao Xu et al.
cs.CL
本文提出了CoAct框架, 通过协同人类与AI, 结合self-rewarding和active learning来优化LLM的preference learning. 该方法在多个推理基准测试上取得了显著的效果提升.
Harshavardhanan Deekeswar
cs.CL cs.LG
本文提出了一种名为ONTO的列式序列化格式, 旨在减少大型语言模型(LLM)处理结构化数据时的token消耗. 通过一次性声明字段名并按行排列数值, 该格式在保持可读性和嵌套结构的同时, 相比JSON显著降低了token使用量并提升了推理速度.
Xinsen Zhang et al.
cs.CL cs.AI
本文提出了一种名为OPSDL的On-Policy Self-Distillation方法,用于提升大语言模型的长上下文处理能力。该方法利用模型自身强大的短上下文能力作为监督信号,通过逐token的反向KL散度来优化长上下文下的生成,从而减少幻觉并提高样本效率。
Yuting Huang et al.
cs.CL
本文提出了一个面向政治与法律领域的专用大语言模型 PoliLegalLM. 该模型通过整合持续预训练、渐进式监督微调和基于偏好的强化学习来增强法律知识、任务对齐和推理能力, 并在多个法律基准测试中取得了有竞争力的结果.
Salam Albatarni et al.
cs.CL
本文提出了一个名为MAPLE的元学习框架, 用于解决自动作文评分(AES)中的跨提示(cross-prompt)泛化问题. 该框架利用原型网络(prototypical networks)学习不同写作提示(prompts)间的可迁移表示, 并在多个数据集上取得了有竞争力的结果.
Elaf Alhazmi, Quan Z. Sheng, Wei Emma Zhang
cs.CL
本文探索了使用大型语言模型(LLMs)和in-context learning进行干扰项生成(DG)的方法。通过设计一个联合生成干扰项及其推理依据的框架,该方法在多个基准测试上取得了优于现有模型的效果。
Leon Engländer et al.
cs.CL cs.LG
本文指出当前基于LLM的智能体缺乏"环境好奇心", 即在环境中发现意外但高度相关的信息时, 难以有效利用这些发现. 通过在多个基准测试中注入完整任务解决方案的实验, 作者展示了智能体发现与利用解决方案之间存在巨大差距, 并分析了影响该能力的主要因素.
Cai Parry-Jones
cs.CL
本文使用一个两阶段的自然语言处理流程, 包括一个RoBERTa偏见检测器和一个用于目标属性情感分类的大语言模型, 来分析威尔士政治新闻媒体Nation.Cymru的报道偏见. 研究发现不同政党受到的报道框架存在显著差异, 为评估威尔士媒体偏见提供了一个可复现的计算框架.
Felicia Körner et al.
cs.CL
本文通过细粒度地追踪一个多语言预训练模型在早期学习阶段的行为, 研究了跨语言泛化能力的涌现过程. 研究发现, 翻译能力的发展经历了两个阶段: 初始阶段以复制和表层相似性为主, 随后才发展出更泛化的翻译机制.
Olubusayo Olabisi, Ekata Mitra, Ameeta Agrawal
cs.CL
本文提出了一种名为ThreadSumm的多阶段LLM框架,用于总结嵌套式讨论线程。该方法通过提取话语方面和原子内容单元进行内容规划,并利用Tree of Thoughts搜索来生成和优化段落候选,从而在保持逻辑结构的同时提高了方面保留和观点覆盖度。
Parker Seegmiller, Sarah Masud Preum
cs.CL
本文提出了一个名为LENS的框架, 用于量化用户prompt的自然分布漂移及其对已部署LLM性能的影响. 通过大规模实验, 研究发现即使是中度的prompt分布变化也会导致模型性能显著下降, 强调了数据驱动监控的重要性.
Amr Ahmed
cs.CL cs.AI
本文提出了Semantic Density Effect (SDE)的概念, 即单位token携带更高语义信息的提示能提升LLM的准确性. 该方法通过移除或替换低信息量token来优化提示, 在多个模型和基准测试中取得了性能提升.
Ali Ghorbanpour et al.
cs.CL cs.IR
本文提出了一个名为Peerispect的交互式系统, 用于对科学同行评审中的陈述进行自动化验证. 该系统通过提取评审中的可核查声明, 从原稿中检索相关证据, 并利用自然语言推理进行验证, 其结果通过可视化界面呈现.
Moinul Hossain et al.
cs.CL cs.AI
本文提出了一种用于法律文书引证分类的轻量级CNN框架, 结合了基于词形还原的预处理, FastText词嵌入和多核一维卷积. 在公开数据集上, 该模型在准确率和效率上均超越了包括微调BERT在内的多个基线模型.
Jon-Paul Cacioli
cs.CL cs.AI
本文将临床心理学中的人格评估有效性量表框架应用于大语言模型的元认知自我报告数据, 提出了六个有效性指标来评估模型回答的可信度. 研究发现部分模型在元认知监控上存在显著缺陷, 其置信度与答案正确性无关甚至负相关.
You-Liang Huang et al.
cs.CL cs.DC
本文提出了一个名为DeInfer的高性能推理系统,专门用于分解后大语言模型(LLM)的并行推理。该系统通过多项优化来提升性能,并与现有先进技术兼容。
Jon-Paul Cacioli
cs.CL cs.AI
本文提出了一种可移植的验证协议,用于评估基于基准测试的LLM置信度信号的有效性。该协议借鉴了临床心理学评估的方法,通过计算几个核心指标对置信度信号进行筛查和分类。
Jon-Paul Cacioli
cs.CL cs.AI cs.LG
本文通过选择性预测任务验证了LLM置信度信号有效性筛查的分类能力。研究发现,该筛查的三级分类能显著预测模型性能差异,并解释了近一半的方差。
Mehwish Nasim et al.
cs.CL cs.SI
本文通过设计包含显式文化指令和隐式情境提示的实验, 评估了多语言大模型在未被告知的情况下是否会自动调整其语用风格以适应隐含的文化情境. 研究发现, 模型仅能恢复约五分之一的显式语用调整, 且对语言结构的响应强于对文化关联的响应.
Arya Hadizadeh Moghaddam et al.
cs.CL cs.AI
本文提出了一个名为RePrompT的框架, 用于将结构化的EHR编码器与大型语言模型(LLMs)集成. 该方法通过提示调优(prompt tuning)来结合时间感知和群体层面的信息, 在多个临床预测任务上取得了优于基线模型的表现.
Suhyun Lee et al.
cs.CL cs.AI cs.HC
本文提出了一个用于评估大语言模型在心理健康咨询场景中安全性的新框架. 该框架通过角色感知的交互式评估, 揭示了现有静态基准测试所忽略的累积性安全风险.
Zhaohua Liang et al.
cs.CL
本文提出了一种用于招聘领域的语义重排序系统 mira-embeddings-v1. 该系统利用 LLM 合成数据来重塑 embedding 空间, 并通过一个轻量级的重排序头来纠正边界混淆, 从而在无需大规模人工标注数据的情况下提升了候选人的检索效果.
Hanhua Hong et al.
cs.CL
本文提出了一个用于端到端实验复现的分层多智能体框架HiRAS, 并改进了Paper2Code基准的评估协议. 实验表明, 该方法在开源骨干模型上取得了超过先前最佳性能10%以上的相对提升, 并显著减少了评估中的幻觉.
Yuan Fang et al.
cs.CL cs.AI
本文提出了一个名为Reverse Constitutional AI (R-CAI)的框架, 用于自动化生成对抗性的有害数据. 该方法通过反转无害的"宪法"并利用强化学习进行迭代优化, 旨在为大型语言模型的安全性评估提供数据支持.
Mohammadtaher Safarzadeh et al.
cs.CL cs.AI cs.DB
本文提出了一种名为SPENCE的句法探测框架, 用于检测和量化NL2SQL基准测试中的训练数据污染问题. 通过系统性地生成测试查询的句法变体并评估多个大语言模型, 研究发现较早的基准(如Spider)显示出较高的训练数据泄露可能性, 而较新的BIRD数据集则基本未受污染.
Seunghee Koh et al.
cs.CL cs.AI cs.LG
本文提出了一种基于熵的token加权方法(ETW), 用于指导大语言模型(LLM)的遗忘学习. 该方法通过预测分布的熵来估计token的信息量, 从而在遗忘过程中更有效地保留模型的有用性.
Bui The Trung et al.
cs.CL cs.AI
本文针对越南语环境下 Small Language Models (SLMs) 存在的 "reasoning gap" 问题, 研究了在 Qwen3-1.7B 模型上的 Test-Time Scaling 策略. 通过构建越南语数学推理数据集和基准, 发现监督微调 (SFT) 能显著提升模型解释质量, 而过于复杂的 prompting 框架 (如 ReAct) 会对小模型性能产生负面影响.
Wang Bill Zhu et al.
cs.CL cs.AI
本文提出了一个名为PDDL-Mind的神经符号框架,用于提升大语言模型在心理理论任务中的表现。该框架通过将叙述性描述转化为PDDL语言中的显式状态和动作,为模型提供了逻辑一致的世界状态表示,从而在多个基准测试上取得了显著的准确率提升。
Hang Zeng et al.
cs.CL
本文提出了一个动态协作框架, 让小型语言模型(SLM)在多步推理中学习主动决定何时请求大型语言模型(LLM)的帮助, 而LLM则提供自适应反馈. 研究发现, 更强的SLM会更自主, 而更强的LLM则能实现更少但信息量更大的交互, 该动态策略在性能上优于静态流程和独立推理.
Ashish Nair
cs.CL
本文通过构建一个多指标判别框架, 将观察到的 Indus 符号系统语料与两种计算机生成的非语言基线系统进行比较. 研究发现 Indus 语料在统计特性上介于两种基线之间, 且与已知的非语言系统均不完全匹配, 这为 Indus 符号是否编码语言的长期争论提供了新的量化视角.
Taylor Lundy, Narun K. Raman, Kevin Leyton-Brown
cs.CL
本文提出了一种名为QuickScope的新方法, 用于在动态LLM基准测试中高效识别困难问题. 该方法基于改进的贝叶斯优化算法, 并通过实验验证了其相比基线方法具有更高的样本效率和更低的误报率.
Zichao Wei
cs.CL cs.AI cs.LG
本文通过训练一个二维神经细胞自动机(NCA)来研究句法处理能否从局部交互中自发涌现. 该模型仅使用1比特边界信号进行监督, 在算术表达式语法的成员问题上进行训练. 训练后, 其内部网格自发组织成一种名为Proto-CKY的有序空间扩展表示, 该表示展现出超越正则语言的表达能力, 并能进行结构泛化.
Ha Lan N.T, Minh-Anh Nguyen, Dung D. Le
cs.CL cs.AI
本文提出了一种名为LAnR的统一框架, 用于改进检索增强生成(RAG). 该方法让单个大语言模型在其潜在空间内联合执行编码, 检索和生成, 并通过一个轻量级控制头自适应地决定何时停止检索. 实验表明该方法在多个问答基准上优于现有RAG方法, 并提高了推理效率.
Tianle Xia et al.
cs.CL
本文提出了一种名为GraSP的图结构技能组合框架, 用于改进LLM agent的技能编排. 该方法将扁平技能集转换为带类型的DAG, 并通过节点级验证和局部修复来执行, 在多个基准测试中提升了任务奖励并减少了环境步数.
Yejin Yoon, Minseo Kim, Taeuk Kim
cs.CL cs.AI
本文提出了一个用于研究个性化工具调用问题的基准MPT和一种测试时记忆增强方法PRefine. 该方法通过一个生成-验证-精炼循环, 从历史对话中提取可重用的约束, 以较少的计算开销提升了工具调用的准确性.
Kun Zhou et al.
cs.CL
本文提出了一个基于用户自定义动态模板和自然语言指令的幻灯片自动更新任务, 并为此构建了一个大规模基准数据集 DynaSlide. 作者还设计了一个名为 SlideAgent 的智能体框架来处理该任务, 该框架结合了多模态解析和工具增强推理.
H S V N S Kowndinya Renduchintala, Sumit Bhatia
cs.CL cs.AI cs.LG
本文通过向预训练数据中注入少量合成数据来研究语言模型在特定语法现象上表现不佳的原因. 实验表明, 数据构成是影响模型形式语言能力的关键因素, 但某些现象(如 principle_A_c_command)的提升仍然有限.
Bao Gia Doan et al.
cs.CL
本文提出了一个面向特定领域的RAG评估基准DoRA, 用于评估基于国防领域文档的问答系统性能. 该基准包含多种问题类型和大量合成数据, 实验表明, 在该基准上微调的模型能显著提升任务成功率并降低幻觉率.
Yindong Zhang et al.
cs.CL
本文提出了一个用于房地产问答的基准测试ReCoQA, 以及一个分层智能体框架HIRE-Agent. 该工作旨在解决结合数据库查询与外部API调用的混合工作流评估问题.
Raffaele Pisano, Roberto Navigli
cs.CL
本文提出了一种基于PDDL规划问题生成PRM数据集的新方法, 用于训练提供逐步反馈的Process Reward Models. 该方法生成了大规模、精确的步骤级奖励数据, 实验表明其能有效提升PRM在数学与非数学推理任务上的性能.
Jie Zhu et al.
cs.CL
本文提出在情感支持对话中为单个话语建模多种支持策略, 并引入了两种生成方法. 实验表明, 允许单轮话语包含多种策略能有效提升对话的支持质量和成功率.
Alistair Plum et al.
cs.CL
本文介绍了首个卢森堡语自然语言理解基准ltzGLUE, 它基于英文GLUE基准构建. 该工作通过构建新任务和复用现有任务, 评估了多种预训练语言模型在卢森堡语上的性能, 涵盖了命名实体识别, 主题分类和意图分类等常见NLP任务.
Xinyao Zhang et al.
cs.CL
本文评估了通用和生物医学大语言模型在药物流行病学研究设计中的表现, 使用了先进的提示工程策略. 研究发现, 通用模型配合特定提示策略在相关性和逻辑性上优于生物医学模型, 但所有模型在 ontology-code 映射方面均表现有限.
Wen Tao et al.
cs.CL cs.LG q-bio.BM
本文通过系统性的实证评估, 研究了大型语言模型(LLMs)在分子生成任务中的创造性行为. 研究将创造力区分为收敛性和发散性两个维度, 并分析了不同因素如何影响这些行为模式.
Muxin Pu et al.
cs.CL cs.CV
本文提出了一种名为SignDPO的多层次直接偏好优化框架, 用于提升基于骨架的手语翻译的语义对齐. 该方法通过构建空间, 时间及语言层面的偏好对比样本, 引导模型区分细微的骨架运动差异, 在多个基准测试上取得了优于现有无注释方法的性能.
Itay Razumenko, Arnon Sturm, Nir Grinberg
cs.CL cs.CY
本文提出了一种合成-有机监督流程, 用于将原始司法判决转化为指令微调数据, 从而在低资源环境下对大型语言模型进行参数高效的个性化微调, 以模拟特定法官的推理风格. 该方法在多个任务和设定中优于现有基线, 并在词汇、风格和语义相似度上取得显著提升.
Leixin Zhang, Cagri Coltekin
cs.CL
本文提出了一种名为 Socio-Contrastive Learning 的方法,用于联合建模标注者观点并学习其社会人口学表征。该方法融合了社会人口学特征与文本表示,以预测标注者的主观视角,其性能优于标准的基于拼接的方法。学习到的表征还能用于分析和可视化人口学因素如何影响观点差异。
Nathikan Yodthapa, Thanapong Intharah, Sahan Bulathwela
cs.CL cs.AI cs.CY
本文提出了一种用于训练小型语言模型进行主题控制摘要的数据增强方法. 该方法通过组合不同文档的上下文来创建对比训练样本, 并在固定真实数据量的情况下, 通过增加增强规模提升了模型性能.
Run Xu et al.
cs.CL cs.CV
本文提出了一种新的多模态生成任务: 文化感知幽默字幕生成, 要求模型根据输入图像和目标文化背景生成幽默的标题. 作者建立了一个六维评估框架, 并提出了一个分阶段对齐的框架来提升模型在该任务上的表现.
Chen Zhang et al.
cs.CL
本文提出了一种名为TriMix的测试时logit融合框架, 用于在低资源语言(LRL)场景下高效适配大语言模型(LLM). 该方法动态整合来自三个不同来源的知识, 无需低资源语言的标注数据, 并在多个模型家族和语言上验证了其有效性.
Santosh Kesiraju et al.
cs.CL cs.SD
本文提出了一种名为FLiP的因子化线性投影模型,用于分析和理解预训练的句子嵌入空间。该方法通过从多语言、多模态及API生成的嵌入中重建词汇内容,为评估不同编码器的内在特性提供了一种诊断工具。
Yiheng Li et al.
cs.CL cs.MM
本文提出了一种检索增强的多模态假新闻检测模型(RAMM). 该模型利用多模态大语言模型(MLLM)作为主干, 并引入了抽象叙事对齐模块和语义表示对齐模块, 以捕获跨实例的叙事一致性并进行类比推理. 在三个公开数据集上的实验验证了该方法的有效性.
Akriti Jain et al.
cs.CL
本文提出了一个结合文档推理与贝叶斯偏好推断的交互式决策框架. 该框架通过从文档中提取客观选项评分矩阵, 并自适应地选择成对权衡问题来学习用户的潜在偏好向量, 以提高决策准确性.
Weicheng Lin et al.
cs.CL cs.AI
本文提出了TLoRA, 一种用于大语言模型参数高效微调的统一框架. 它通过数据驱动的初始化策略和对秩与缩放因子的自适应分配, 在多个任务上实现了优异性能并显著减少了可训练参数.
Ziyang Liu
cs.CL cs.AI cs.LG
本文研究了在300M参数的SwiGLU decoder-only语言模型上进行W4A4量化时,输入激活位置对误差的影响。通过引入一种名为Depth Registers with hinge loss (DR+sink)的训练时干预方法,显著降低了量化后的验证困惑度,并分析了模型中不同线性层(划分为reader和generator)对量化误差的贡献差异。
Yun Hong, Yan Zhou, Yang Feng
cs.CL
本文提出了一种名为FreezeEmpath的高效训练方法, 用于构建具有共情能力的语音对话系统. 该方法通过冻结大语言模型(LLM)的参数, 仅利用现有的语音指令数据和语音情感识别(SER)数据进行训练, 在生成富有情感表现力的语音方面取得了良好效果.
Sua Lee, Sanghee Park, Jinbae Im
cs.CL cs.AI cs.CV
本文针对MLLM-as-a-Judge范式中的评估偏见问题,提出了一个系统性评测基准MM-JudgeBias。该基准通过引入对Query、Image和Response的受控扰动,并设计了Bias-Deviation和Bias-Conformity两个互补指标,来诊断多模态大语言模型在评估任务中存在的九种组合偏见。实验在26个前沿模型上进行,揭示了模型普遍存在的模态忽视和非对称评估倾向。
Ran Zhang et al.
cs.CL cs.AI
本文提出了一个用于评估大语言模型在文学翻译中理解与创造力的配对任务框架. 该框架结合了专家人工标注和基于"创造性潜力单元"的自动评分, 对多个模型进行了基准测试. 研究发现, 模型的理解能力并不直接转化为人类水平的创造力, 尤其是在远距离语言对中.
Ziyang Liu
cs.CL cs.AI
本文提出了一种名为 Copy-as-Decode 的解码层机制,用于加速大语言模型(LLM)的文本与代码编辑任务。该方法将编辑生成重新定义为在包含复制与生成两种原语的语法上的结构化解码,并通过并行预填充技术来加速复制过程。实验表明,该方法在多个基准测试上能实现显著的推理速度提升,并保持了较高的编辑覆盖率。
Sungeun An et al.
cs.CL cs.AI
本文提出了一个名为STaD的框架,用于系统性地识别大型语言模型在组合推理技能上的缺陷。该方法通过设计具有结构化支持的基准任务变体,以可扩展的方式探测模型的行为弱点。
Tobias Grantner, Emanuel Sallinger, Martin Flechl
cs.CL
本文提出了一种基于recurrent language models的text embedding方法, 通过引入vertically chunked inference策略, 实现了线性时间复杂度和常数内存消耗. 该方法在多个benchmarks上取得了有竞争力的性能, 为长序列embedding提供了一种高效的transformer替代方案.
Samuel G. Balter, Ethan Jerzak, Connor T. Jerzak
cs.CL
本文通过构建一个受控的多模态乘法基准测试, 研究了多模态大语言模型在不同模态(文本, 图像, 音频)下执行精确多位数乘法时的表现. 研究发现, 模型失败的主要原因是计算而非感知, 并且引入了一个算术负载度量C来预测性能.
V.S.D.S.Mahesh Akavarapu, Michael Daniel, Gerhard Jäger
cs.CL
本文对两种低资源、音系复杂的东高加索语言(Archi和Rutul)进行了音素级别的自动语音识别分析。研究评估了多种模型,发现数据稀缺比音系复杂性更能解释识别错误。
Pierre-Carl Langlais et al.
cs.CL
本文提出了一种用于社交媒体情感分析的合成数据生成方法, 应用于法语客户投诉检测. 该方法通过回译等技术生成大规模合成推文, 训练得到的模型在评估集上取得了与现有先进模型相当的性能.
Jiayi Wu et al.
cs.CL cs.AI
本文针对深度搜索任务中GRPO算法存在的优势分配问题, 提出了CalibAdv校准方法. 该方法通过细粒度地调整正负优势值, 提升了模型性能与训练稳定性.
Felix Herron et al.
cs.CL
本文通过层级的公平性分析, 研究了预训练自监督语音编码器模型在不同说话人群体上的性能差异. 研究发现, 模型从初始层开始就存在针对特定说话人群体的嵌入偏差, 并且说话人识别任务与自动语音识别任务呈现出相反的层级偏差模式.
Ryo Yoshida et al.
cs.CL
本文通过微调神经语言模型(LM)来探究 surprisal 理论是否能解释花园路径效应。实验表明,经过微调的模型能够更好地预测人类在花园路径句和自然语料上的阅读时间,为 surprisal 理论提供了支持,但也引发了关于该理论可证伪性的理论问题。
Saptarshi Ghosh, Tianyu Jiang
cs.CL
本文通过分析多个LLM的隐藏表示, 研究了模型如何内部表征词语的具体性(concreteness), 特别是在比喻性语言中的变化. 研究发现, 模型在早期层区分词语的字面义和比喻义, 并在中后层将具体性压缩为一个跨模型一致的一维方向, 该方向可用于高效的比喻语言分类和无训练的文本改写引导.
Yaniv Nikankin et al.
cs.CL
本文通过分析模型激活而非推理链的token本身, 研究了语言模型中推理步骤的重要性. 研究发现, 模型在生成后续步骤之前, 其内部激活就已编码了关于步骤重要性的表征, 且该表征在不同模型间具有泛化性.
Mateusz Cedro, David Martens
cs.CL cs.AI
本文探讨了在可解释人工智能(XAI)中引入叙事性(narrativity)的重要性及其评估方法. 作者认为当前基于自然语言的解释缺乏连贯的因果叙述, 并提出了七项量化叙事质量的自动评估指标.
Adewale Akinfaderin, Nafi Diallo
cs.CL
本文提出了一种名为FregeLogic的混合神经符号系统, 用于解决三段论有效性预测任务. 该系统结合了多个LLM分类器与Z3 SMT求解器, 旨在减少预测中的内容效应.
Daniela Baiamonte et al.
cs.CL cs.AI
本文针对Vision-Language Models (VLMs) 多语言资源不足的问题,构建了一套覆盖五种欧洲语言的多模态训练与评估资源。通过结合合成生成与人工标注的再生-翻译范式,创建了训练语料库Multi-PixMo和一系列多语言评测基准。实验表明,使用多语言数据进行训练对非英语评测任务有益,并能正向迁移至英语任务。
Shuqi Cao, Jingyi He, Fei Tan
cs.CL
本文提出了一种名为HiGMem的分层记忆系统, 旨在优化长期对话agent的上下文检索. 该系统通过使用LLM引导的语义锚点来筛选相关对话轮次, 从而在减少检索量的同时提升回答质量.
Prajwal Vijay Kajare et al.
cs.CL
本文提出了一种名为PRISMA的可解释情感智能谈判对话系统, 应用于工作面试和资源分配两个领域. 该系统通过结合自我训练与直接偏好优化(DPO)来生成更准确、可解释且情感适当的谈判回应.
Zhaopei Huang et al.
cs.CL
本文提出了一个名为ComPASS的框架,旨在通过工具增强的智能体来提供个性化的社会支持。它构建了一个包含多种用户中心工具的基准测试,并基于此微调了一个特定模型,评估表明工具增强的响应优于直接的共情对话生成。
Qingying Niu et al.
cs.CL cs.IR
本文提出ArbGraph框架, 用于在长文本检索增强生成(RAG)中进行生成前的证据仲裁. 该方法将检索到的文档分解为原子主张并构建冲突感知的证据图, 通过迭代仲裁机制传播可信度信号, 从而在生成前抑制不可靠或不一致的证据. 实验表明, 该方法在存在冲突或模糊证据的情况下, 能有效提高事实召回率并减少幻觉.
Hongwei Zheng et al.
cs.CL cs.AI
本文提出了Conversation Starter Generation任务和IceBreaker模型,旨在解决对话代理在对话启动阶段的“首消息障碍”问题。该模型通过从用户会话摘要中提取兴趣点并生成个性化的开场白,以在冷启动场景下引导用户进入对话。在线A/B测试表明该方法能有效提升用户活跃度。
Yang Liu, Chenhui Chu
cs.CL
本文通过将LLMs视为多元函数并进行一阶Taylor展开,分析了语义保留提示词与其梯度及模型下一个token对数概率之间的关系。研究推导了概率差异的上界,并指出LLMs倾向于分散而非聚类相似输入,这导致了较高的提示敏感性。
Yingtao Shen, An Zou
cs.CL
本文提出了一种名为River-LLM的无训练框架,旨在解决大语言模型推理中的KV Cache缺失问题,以实现高效的Early Exit。该方法通过共享KV状态和预测累积误差,在数学推理和代码生成任务上获得了显著的推理加速。
Yixuan Wang et al.
cs.CL cs.AI
本文提出了一种基于进化树的创造力评估心理测量情境生成器 AlphaContext. 它通过分层规划、MCTS 填充和基于 MAP-Elites 的进化优化来生成高质量、多样化的评估情境, 在多项质量指标上优于现有方法.
Daoyu Wang et al.
cs.CL
本文针对 Agentic Reinforcement Learning 提出了 StepPO 方法, 主张将传统的 token-level MDP 建模提升为 step-level MDP 建模. 该方法旨在更好地优化智能体的决策和工具使用等核心能力, 以应对多轮交互环境中的新挑战.
Raghvendra Kumar, Devankar Raj, Sriparna Saha
cs.CL
本文对印度自然语言处理(NLP)领域的资源进行了首次统一调查, 涵盖了超过200个数据集, 50多个基准测试以及100多个模型, 工具和系统. 该调查按语言现象, 领域和模态组织资源, 分析了标注, 评估和模型设计的趋势, 并指出了数据稀疏性, 语言覆盖不均等持续存在的挑战.
Marcello Galisai et al.
cs.CL cs.AI
本文提出了Adversarial Humanities Benchmark (AHB), 用于评估前沿AI模型在有害意图被文学风格改写后的安全性. 实验表明, 经过风格转换的攻击成功率远高于原始攻击, 揭示了当前安全措施在风格鲁棒性上的不足.
Samar M. Magdy et al.
cs.CL cs.AI
本文提出了一个名为LQM的语言学驱动的多维质量评估框架, 用于机器翻译评估. 该框架构建了一个包含六个语言学层级(社会语言学, 语用学, 语义学, 形态句法学, 正字法和字素学)的错误分类法, 并基于一个包含七种阿拉伯语方言的双语语料库进行了专家标注验证.
Xingchen Xiao et al.
cs.CL
本文提出了一种名为 MASS-RAG 的多智能体合成检索增强生成方法,用于处理检索到的上下文信息存在噪声或不完整的情况。该方法通过多个角色专一的智能体分别进行证据总结、提取和推理,并整合它们的输出来生成最终答案,在多个基准测试上提升了性能。
Eric Rudolph, Philipp Steigerwald, Jens Albrecht
cs.CL cs.AI
本文提出了一种基于KL正则化的方法, 用于在心理咨询对话的下一对话行为预测任务中融入经验性的对话流统计信息. 该方法通过将预测的行为分布与语料库导出的转移模式对齐, 在细粒度且数据稀疏的任务中提升了模型性能, 并显示出跨语言和咨询领域的可迁移性.
Alireza Dadgarnia et al.
cs.CL cs.LG
本文提出了一种名为GSQ的后训练标量量化方法, 通过Gumbel-Softmax松弛来联合优化网格分配和分组尺度. 该方法在2-3比特的低精度下, 显著缩小了简单标量量化与前沿向量量化方法之间的精度差距, 同时保持了与现有标量推理内核的完全兼容性.
Tatsuki Kuribayashi et al.
cs.CL
本文探讨了语言模型内部不同层在估计人类句子处理认知负荷时的差异. 研究发现, 对于句法复杂的结构, 后期层的表现优于早期层, 但仍低估了人类的认知努力.

cs.DS

Dionysis Arvanitakis et al.
cs.DS
本文研究了从带噪声的四元组样本中重建系统发育树的问题. 作者提出了一种算法, 能够在样本量为\(\Theta(n)\)时, 以高概率恢复出接近真实树的树结构.
József Pintér, Regina Stangl
cs.DS cs.CC
本文研究了同构网络缓存问题(HomNC)的参数化复杂度. 作者证明了该问题在参数为缓存数量\(C\)时是固定参数可解的(FPT), 从而解决了之前关于其W[1]-难度的猜想.
Lloyd Allison
cs.DS cs.PL
本文探讨了在编程中如何高效地实现Conway的surreal numbers及其算术运算. 通过采用lazy evaluation和递归数据结构, 作者展示了可以显著提升计算速度.
Maximilian von Aspern, Felix Buld, Michael Pinedo
cs.DS cs.DM math.OC
本文研究了具有随机重入特性的flow shop调度问题, 其中作业完成所需的加工次数服从离散概率分布. 通过将问题约简为经典的带机器到达的并行机调度问题, 作者证明了在几何分布和单调失效率分布下, 简单的优先级策略对于最小化期望makespan和总完工时间是最优的.

others

Nokimul Hasan Arif, Qian Lou, Mengxin Zheng
cs.MA cs.AI
本文研究了多智能体LLM系统中的一种新型安全威胁——Conjunctive Prompt Attacks. 攻击者通过控制用户查询中的触发关键词和远程智能体中的隐藏对抗模板, 利用系统路由机制将两者组合, 从而激活有害行为, 而单独检查每个部分均看似无害. 实验表明, 在多种网络拓扑结构下, 基于路由感知的优化能显著提高攻击成功率, 而现有的单点防御机制均难以有效应对. 这项工作揭示了智能体系统在组合层面的结构性漏洞, 强调了需要跨智能体推理的新型防御策略.
Mingxuan Wang, Satoshi Nakamura
eess.AS cs.AI cs.CL cs.LG cs.SD
本文提出了一种名为TokenChain的完全离散语音链, 通过语义token建模来耦合ASR和TTS. 该方法利用离散语义token作为接口, 结合两阶段TTS和动态权重平均训练策略, 在LibriSpeech和TED-LIUM数据集上提升了ASR和TTS的性能.
Meng'en Qin et al.
cs.CV cs.AI cs.LG
本文提出了一种用于密集视觉预测任务的渐进式内容感知金字塔注意力网络(A3-FPN). 它通过渐进解耦框架和内容感知注意力模块来增强多尺度特征表示, 在多个基准数据集上取得了优异的性能.
Willem van der Maden et al.
cs.SE cs.AI cs.HC
本文通过访谈研究, 探讨了产品团队在评估LLM驱动产品时面临的挑战, 并提出了"结果-可操作性鸿沟"这一新概念. 研究指出, 从业者现有的非正式评估实践是对LLM特性的必要适应, 而非方法论的失败.
Rei Tamaru, Bin Ran
cs.CY cs.IR
本文介绍了一个名为CrossTraffic的开源框架,旨在通过将交通工程方法论(如HCM)编码为可执行软件和知识图谱,来解决该领域知识分散、工具封闭和结果难以复现的问题。该框架结合了标准化计算接口、语义验证层和基于大语言模型的对话界面,实验表明其能有效提升分析准确性和方法保真度。
Claudio Spiess, Prem Devanbu, Earl T. Barr
cs.SE cs.AI cs.LG
本文通过程序输出预测任务, 研究了LLMs在代码理解上的鲁棒性. 研究发现, 前沿模型GPT-5.2在输入扰动下准确率显著下降, 而开源推理模型则表现相对稳定.
Tinglin Huang et al.
cs.SE cs.AI cs.PL
本文提出了一种名为IFCodeEvolve的框架,用于生成与指令配对的编程数据。该方法通过将指令参数化为函数模式库,并利用蒙特卡洛树搜索进行采样,同时让执行模型与模式库协同进化,最终提升了基础模型在代码生成任务上的性能。
Matteo Casserini, Alessandro Facchini, Andrea Ferrario
cs.SE cs.AI
本文针对自主编码代理在软件开发中引发的"代理熵"问题, 提出了一个面向过程的可解释性框架. 该框架通过追踪代理决策在时间、工具调用和架构边界上的演变, 旨在补充现有的代码审查实践.
Xiaoyu Ma et al.
cs.RO cs.AI cs.CV cs.MA
本文提出了一种名为BrainMem的免训练分层记忆系统, 用于具身智能体的任务规划. 该系统模仿人类认知, 将交互历史转化为知识图谱和符号化准则, 从而提升智能体在复杂环境中的长期任务执行成功率.
A S M Touhidul Islam, John Tookey
cs.HC cs.AI cs.MA
本文提出了一个名为"Multi-Existence Identity (MEI)"的社会技术框架,旨在通过AI和机器人技术复制人的认知与情感属性,实现个体在多个数字或物理环境中的并行存在。该框架探讨了其在多个领域的应用潜力及相关的伦理挑战。
Jiaqing Wang et al.
cs.HC cs.AI
本文提出了一个名为ELDER-SIM的平台,用于构建具有稳定人格特征的老年人数字孪生体。该平台通过整合Big Five人格特质、认知概念化图以及长期记忆模块,并采用心理测量学方法进行验证,旨在减少基于LLM的智能体在交互中的人格漂移问题。
Akira Miura et al.
cs.HC cs.AI
本文提出了一种结合第一人称实验视频、多模态AI和检索增强生成(RAG)的人机协同AI助手, 用于从实验记录中提取特定实验室的操作知识, 并基于生成的指南提供安全可靠的回答. 系统采用双层安全设计来减少错误输出, 初步评估表明其在适用范围内能提供有用且安全的指导.
Banri Yanahama, Akiyoshi Sannai
cs.HC cs.AI cs.LO
本文介绍了一个名为Lean Atlas的集成证明环境, 旨在通过人机协作解决AI自动形式化中的语义幻觉问题. 该工具通过可视化依赖图和算法提取关键节点来辅助人类进行语义验证, 并在多个Lean 4项目上评估了其减少待审查节点的效果.
Vasileios Komianos, Emmanuel Rovithis, Athanasios Tsipis
cs.CY cs.AI
本文分析了2021至2025年间六个数字艺术会议的讨论内容,追踪了AI、XR/元宇宙以及区块链/NFTs等新兴技术相关的主题演变。研究发现,AI相关议题显著增长并成为主导,而沉浸式技术与区块链话题则保持相对稳定。
Junhoo Lee, Mijin Koo, Nojun Kwak
cs.CR cs.AI cs.CV
本文提出了一种名为CSF的黑盒指纹识别方法, 用于在仅有查询访问权限的情况下, 溯源基于受保护模型微调而来的text-to-image模型. 该方法通过组合性语义提示来探测模型, 并利用贝叶斯归因框架进行受控风险的谱系判定.
Jordan L. Cahoon et al.
cs.CY cs.AI cs.CL
本文提出了一个名为TRACE的预处理流程, 用于减少临床记录中的冗余文本(即"note bloat"), 以降低使用大型语言模型(LLM)进行临床决策支持的计算成本. 该方法结合了电子健康记录(EHR)元数据分析和基于频率的去重技术, 在多个真实临床数据集上验证了其能在大幅缩减文本量的同时, 保持下游任务(如信息抽取和结果预测)的性能.
Yiyao Yang, Yasemin Gulbahar
cs.CY cs.LG
本文提出了一个用于探索AI辅助学习的AI智能体原型框架, 结合了时序交互模式, 多结果分析和行为-认知学习者画像. 研究通过模拟学生-AI导师交互记录, 分析了早期交互模式对后期表现和信任的预测能力, 以及不同反馈条件下学习者的行为变化和潜在画像.
Wen Zhanjie, Guo Jingqiao
cs.CY cs.AI
本文通过构建多模态的AI Washing Risk Score (AWRS) 和 Material Real-Investment Matching Index (MRMI),实证研究了A股市场的AI概念炒作现象。研究发现,AI炒作与实质性投资脱节,会挤出行业创新并最终引发市场估值修正。
Jeanne McClure, Gregg Gerdau
cs.CY cs.AI cs.CL
本文认为企业AI项目失败的核心是组织学习问题而非技术缺陷. 文章提出了一个SIO进展模型, 为企业AI能力建设提供了指导.
Alexandra DeLucia et al.
cs.CY cs.AI
本文评估了LLM-as-a-Judge框架在医疗聊天机器人回答完整性评估中的可靠性。研究发现,LLM法官与临床医生在判断标准和解释上存在根本差异,其检测性能有限,无法在临床环境中作为自主评估或分流工具。
Haoyue Bai et al.
cs.SE cs.AI
本文提出了一个用于诊断Web Agent在真实交互变化下鲁棒性的基准测试StressWeb. 该基准通过构建可控的Web环境并引入模拟交互变化的扰动, 系统地评估了现有先进多模态Web Agent的鲁棒性差距.
Sheyla Leyva-Sánchez et al.
cs.DB cs.AI cs.CY
本文提出了一个用于欧盟《数据法案》合规性的形式化本体DAOnt. 它复用现有本体来捕获法规的规范结构, 并通过SPARQL查询支持对数据共享协议的合规性检查.
Luca-Ncolae Cuclea, Sabin-Codrut Badea, Adrian-Marius Dumitran
cs.CY cs.AI cs.CL
本文介绍了一个名为RoMathExam的罗马尼亚高中数学考试纵向数据集, 涵盖1895-2025年, 其中1957-2025年为核心标准化部分. 该数据集包含超过10,000个数学问题, 并提供了课程对齐的主题标签和文本嵌入, 可用于课程分析和LLM评估.
Rajveer Bachkaniwala et al.
cs.DB cs.AI
本文提出了一个名为STREAM2LLM的系统,用于优化LLM推理中的上下文检索延迟问题。该系统通过重叠检索与推理、自适应调度以及缓存管理,在保持吞吐量的同时显著降低了首次令牌生成时间。
Dennis Beck, Leonel Morgado
cs.CY cs.AI cs.HC
本文通过两个在线高等教育案例, 探讨了教师创建的定制GPT如何作为教学伙伴, 促进学生的沉浸式学习体验. 研究基于沉浸式学习立方体框架, 分析了定制GPT在系统、叙事和能动性三个维度上对学习沉浸感的影响.
Ying Zhang et al.
cs.CY cs.AI
本文提出了一个用于Q-matrix(Q矩阵)精化的人机协作框架,结合了大型语言模型(LLM)的生成能力和认知诊断模型(NeuralCDM)的实证评估。该框架通过迭代优化生成的Q矩阵,在一个热力学评估数据集上取得了优于专家基准的模型拟合效果,并验证了本地部署模型的可行性。
Jasmine Moreira
cs.SE cs.AI
本文提出了一种名为IACDM的结构化框架, 旨在解决AI辅助软件开发中的"验证鸿沟"问题. 该框架通过引入外部验证代理(VA)和系统化的对抗性评审来提升代码质量和安全性.
Shaoyuan Huang et al.
cs.DC cs.AI cs.LG
本文提出了一个名为CoLLM的统一框架, 用于在边缘智能场景中协同执行联邦参数高效微调(FL PEFT)和低延迟推理. 该系统通过在共享的模型副本和参数上实现实时参数复用与自适应负载均衡, 旨在减少部署冗余并提升整体效率.
Xinkui Zhao et al.
cs.DB cs.IR
本文提出了一种名为GRAB-ANNS的GPU原生图索引,用于高效处理结合向量相似性和结构化谓词过滤的混合搜索。它通过桶化内存布局和混合图拓扑设计,解决了GPU上不规则内存访问和分支发散等问题,在保持高召回率的同时,显著提升了查询吞吐量和索引构建速度。
Zhenglin Lai et al.
cs.RO cs.AI cs.CV cs.LG
本文提出了一种名为ICAT的方法, 用于评估视频生成世界模型在预测物理风险方面的能力. 该方法通过构建结构化的风险记忆库来约束生成过程, 实验表明现有模型在风险机制和严重性校准上存在不足.
Dirk HR Spennemann
cs.DL cs.AI
本文研究了生成式AI在学术写作中产生和传播虚假引用的问题, 聚焦于一个被反复虚构的特定引用实例. 通过分析大量可获取的源文献以及对ChatGPT的询问, 研究发现这些虚假引用并非随机生成, 而是对真实作者、期刊等元素的模式化重组, 且即使在联网状态下, AI仍无法完全避免此类错误.
Jamal Toutouh
cs.NE cs.LG
本文提出了一种用于极低标签率半监督表格分类的协同协同进化方法(CC-SSL), 并将其与一个整体进化基线(EA-SSL)及其他轻量级基线进行了比较. 实验表明, 在1%标签数据下, 两种进化方法的中位测试性能优于轻量级基线, 但两者之间的最终性能差异在统计上不显著.
Jingyuan Liu
cs.CY cs.AI
本文提出了 Inter-Prompt Reliability (IPR) 框架,用于评估大语言模型在不同语义等价提示下的输出稳定性。研究发现,在解释性任务中,模型标注存在显著的随机性,而在基于知识的任务中则更为稳定。
Mohamed Soufan
cs.CY cs.CL
本文通过分析2026年黎巴嫩冲突期间的新闻数据与谷歌搜索趋势,量化了媒体报道议程与公众信息需求之间的差异。研究发现,媒体过度关注军事冲突,而公众更持续地关心经济、生活条件和移民等议题。
Sun Shengming, Shi Jialong
cs.NE cs.AI
本文提出了一种基于抽象语法树(AST)的两阶段进化算子, 用于增强基于大语言模型(LLM)的自动化启发式设计(AHD). 该方法首先在AST结构上进行交叉和变异以探索搜索空间, 然后利用LLM修复生成无效代码, 从而在旅行商问题(TSP)和在线装箱问题(OBP)上提升了现有算法的性能和收敛速度.
Manoj Parmar
cs.CR cs.AI cs.CL cs.LG math.OC
本文对State-Space Models (SSMs)的安全性进行了首次系统性分析,提出了一个包含五层的攻击面框架和三种新型攻击方法。研究还扩展了现有的攻击分类法,并针对高风险应用领域提出了治理相关的缓解措施。
Vsevolod Lazebnyi et al.
cs.DB cs.LG
本文提出了一种利用大型语言模型(LLMs)自动收集和聚合网络非结构化数据的方法. 该方法结合了混合网页抓取、非关系型数据库存储以及基于LLM的信息提取与规范化流程, 并通过一个两阶段验证过程来提高数据可靠性. 实验表明该方法对网页结构变化具有鲁棒性, 适用于新闻聚合和日志分析等近实时任务.
Nicholas CL Beale
cs.CY cs.AI cs.LG econ.EM
本文提出了一个简单的公式来量化由多个AI模型组成的评审团(panel)在筛选任务(如简历筛选)中的精度提升. 该公式将精度表示为AI数量\(n\), 平均两两相关性\(\rho\)和选择分位数\(q\)的函数, 为决定使用多少个AI提供了量化依据.
Aref Ghoreishee et al.
cs.NE cs.LG
本文提出了一种用于自动驾驶的模糊编码-解码架构, 旨在改善基于视觉的多模态深度 spiking Q-network 的性能. 该方法通过可训练的模糊隶属函数生成更具表达力的脉冲表示, 并使用轻量级神经解码器从脉冲输出中重建连续的 Q 值, 在 HighwayEnv 基准测试中提升了决策精度.
Arjan Mahmuod et al.
eess.SP cs.AI cs.LG
本文研究了心电图(ECG)采样频率对基于深度学习的房颤(AF)检测模型性能的影响。通过系统性的基准测试,发现采样频率对模型性能有显著影响,且这种影响依赖于模型架构。
Zhiquan Wang et al.
cs.RO cs.AI
本文提出了一种名为LatentMimic的四足机器人运动学习框架,旨在解决地形适应性与运动风格保真度之间的权衡问题。该方法通过解耦风格约束与几何约束,并利用动态重放缓冲区来适应不同地形,从而在多种地形上实现了有效的运动控制。
Yoonmin Cha, Dawit Chun, Sung Park
cs.SD cs.AI cs.CL
本文提出了一种名为iPhoneme的脑机接口系统,用于帮助ALS患者进行脑到文本的通信。该系统结合了改进的ConformerXL深度学习模型和一个基于凝视的交互界面,在颅内脑电数据集上取得了较高的音素和单词识别准确率。
Zhuo Diao et al.
eess.SP cs.AI cs.LG
本文评估了一种基于雷达的非接触式睡眠监测设备Sleepal AI Lamp的性能, 通过提取多尺度呼吸和运动特征并训练深度学习模型, 在睡眠分期任务上取得了与专业多导睡眠图(PSG)高度一致的结果. 该方法为无扰式长期睡眠监测提供了一种可行的技术方案.
Felix Koch, Fabian Raisch, Benjamin Tischler
eess.SY cs.LG
本文评估了用于建筑热动力学建模的多源迁移学习和时间序列基础模型. 研究结果表明, 多源迁移学习模型在实际应用中表现优异, 但其性能优势依赖于足够多的源建筑数据进行预训练.
Giovanna Sannino et al.
eess.AS cs.AI cs.CV cs.LG
本文介绍了SAND挑战赛, 该挑战旨在利用语音信号作为生物标志物, 通过AI算法支持肌萎缩侧索硬化症(ALS)等神经退行性疾病的早期诊断和进展预测. 研究团队创建了一个临床标注的验证数据集, 并基于此发起了该挑战, 以促进相关AI模型的开发与评估.
Junwen Ma et al.
cs.CV cs.LG cs.SD eess.AS
本文提出了一种基于bottleneck residual convolutions和BiGRU的端到端光学乐谱识别方法. 该方法在Camera-PrIMuS和PrIMuS数据集上取得了较低的序列错误率和符号错误率, 展现了较高的识别精度和计算效率.
Kang Yang et al.
eess.SY cs.LG
本文提出了一种名为FM-CAC的碳感知控制框架,用于优化边缘AI系统的能源使用。该框架结合了时间序列基础模型进行零样本碳强度预测,并通过动态规划联合优化软件、硬件和电池操作,以在保证服务质量的同时降低碳排放。实验表明,该方法能显著减少碳排放。
Nick Souligne, Vignesh Subbian
cs.CY cs.LG q-bio.QM
本文介绍了FairLogue工具包,用于评估临床机器学习模型中的交叉公平性。研究通过All of Us数据集,在两个临床预测任务上进行了复制和评估,发现交叉分析比单轴分析揭示了更大的差异,但反事实诊断表明大部分差异与随机分组下的预期差异相当。
Yu Sha et al.
eess.AS cs.AI cs.CV cs.LG cs.SD +1
本文提出了一种用于故障强度诊断的深度层次知识损失框架, 通过引入层次树损失和分组树三元组损失来建模类别间的层次依赖关系. 在多个工业数据集上的实验表明, 该方法优于现有的先进方法.
Andrew Millard, Zheng Zhao, Henrik Pedersen
physics.comp-ph cs.LG
本文探讨了将基于扩散先验的物理引导采样方法应用于由advection-reaction-diffusion方程控制的气相反应动力学问题. 该方法能够从稀疏观测中重建完整的时空轨迹, 并展现出对未见参数体系的泛化能力.
Jiaqi Shi et al.
cs.CV cs.AI
本文提出了一种名为HalfV的框架, 用于加速高分辨率多模态大语言模型(MLLM)的推理. 该方法通过截断矩阵熵分析, 将视觉冗余分解为通用部分和架构依赖部分, 并采用分阶段剪枝策略来提升效率.
Xiaobo Liu
q-bio.NC cs.AI cs.SE
本文介绍了一个名为 MLE-Toolbox 的开源 MATLAB 工具箱,用于脑电图 (EEG) 和脑磁图 (MEG) 数据的端到端分析。它集成了从预处理到源定位、功能连接和机器学习分类的完整流程,并提供了图形用户界面和与其他主流神经影像平台的互操作性。
Michael Sheehan, Irina Timoshenko
stat.AP cs.LG
本文提出了一种用于铁路车站乘客协助需求预测与人力规划的数据驱动决策支持框架. 该框架采用一种考虑预测时间范围的 Prophet 模型进行需求预测, 并通过一个可解释的风险评估框架将预测结果转化为人力配置方案. 实际应用表明, 该方法能有效提升预测精度并减少因人力不足导致的服务失败.
Yanfei Song
cs.DC cs.AI
本文提出了一种名为B-PASTE的扩展方法,用于资源受限的LLM agents。该方法在推测未来工具调用时,考虑了分支假设和资源约束,旨在减少端到端延迟。
Jianfeng Xu
cs.LO cs.AI cs.IT cs.MA
本文为多智能体语义通信建立了一个结合形式证明系统与Shannon信息论的严格框架。它定义了语义信道模型、多种语义失真度量以及信道不变量,并实例化了异构多智能体场景,分析了语义瓶颈现象。
Dirk Bergemann et al.
cs.GT cs.AI cs.MA econ.GN econ.TH
本文构建了一个用于评估和训练LLM智能体的双边贸易谈判模拟环境. 通过基准测试和强化学习训练, 研究了不同模型在信息不完全条件下的谈判策略与表现.
L. Niedermeier, J. L. Krichmar
cs.AR cs.AI cs.NE
本文展示了SNN模拟器CARLsim能够在资源受限的MCU上运行其全部功能集。通过采用16位浮点数格式,在保持功能的同时显著降低了内存需求,并在低功耗下实现了实时模拟。
Han Xu et al.
cs.NE cs.AI
本文提出了一种名为SDLLM的spike-driven large language model, 旨在将大脑的spiking-driven特性整合到LLM推理中, 以替代密集矩阵乘法. 通过使用gamma-SQP两步spike编码等方法, 该模型显著降低了推理能耗并提升了任务性能.
Jiarui Guan et al.
cs.CV cs.AI
本文提出了一种用于视频扩散模型的潜在压缩变分自编码器方法, 通过移除视频潜在表示中的高频分量而非直接减少通道数来提升性能. 实验表明该方法在保持压缩比的同时实现了更好的视频重建质量.
Hoigi Seo et al.
cs.CV cs.AI
本文提出了一种可扩展的文本到图像扩散模型概念擦除框架ETC. 该方法通过建模概念的低秩分布并训练一个基于Mixture-of-Experts的模块, 实现了对数千个概念的精确擦除, 同时保持了生成质量和对白盒攻击的鲁棒性.
Qinghui Gong
cs.CV cs.AI
本文提出了一种无需训练的轻量级框架 Dynamic Semantic Steering (DSS), 用于在扩散模型中实现可控的概念擦除. 该方法通过建模敏感语义边界和利用 cross-attention 特征进行精确引导, 在有效抑制敏感内容的同时保持了生成图像的质量.
Yueci Deng, Guiliang Liu, Kui Jia
cs.CV cs.AI
本文提出了一种名为Causal Latent World Model (CLWM) 的新方法,用于提升具身任务学习的效率和鲁棒性。它通过使用DINOv3特征作为生成目标、设计恒定内存占用机制以及异步推理来优化世界模型的部署。
Marc Estafanous
cs.CV cs.AI cs.LG
本文提出了一种称为Saccade Attention Network的方法,通过从大型预训练模型中学习注意力位置来预处理图像,从而将输入序列长度减少到仅关注关键特征。该方法旨在减少Transformer网络因注意力矩阵的二次复杂度而产生的计算开销,实验表明可减少近80%的计算量并保持相似结果。
Devendra Ghori
cs.CV cs.LG
本文提出了一种名为PhyLAA-X的物理条件化局部伪影注意力机制,用于端到端的深度伪造视频检测。该方法通过将光流、镜面反射和rPPG等物理特征注入注意力计算,并结合高效的时空集成模型,在多个基准数据集上取得了优异的性能,并表现出良好的跨生成器鲁棒性和对抗鲁棒性。
Nirmalendu Prakash et al.
cs.CV cs.AI
本文提出了一种通过局部跨模态对齐和引导来改进CLIP检索的方法. 该方法引入了基于邻域结构的重排序和查询条件化的局部引导, 旨在解决共享嵌入空间中局部几何不一致导致的检索错误. 实验表明, 这些技术能提升在属性绑定和组合检索任务上的性能.
Hanuman Verma et al.
cs.CV cs.AI cs.LG
本文提出了一种结合模糊逻辑的新型损失函数, 用于处理MRI脑图像分割中的不确定性. 该函数融合了分类交叉熵和模糊熵, 并在U-Net等架构上验证了其有效性.
Stefanos Gkikas et al.
cs.CV cs.AI
本文提出了一种用于从脑活动识别疼痛的轻量级Transformer模型. 该模型通过统一的token化机制融合多种fNIRS信号表示, 在保持计算紧凑性的同时实现了有竞争力的性能.
Guandong Li
cs.CV cs.AI
本文提出了一种名为LayerCache的层感知缓存框架, 用于加速Flow Matching模型的推理. 该方法通过观测Transformer不同层组的速度异质性, 对层组进行独立缓存决策, 并引入自适应JVP跨度选择机制来平衡精度与计算开销. 实验表明, 该方法在图像生成质量指标上显著优于现有缓存方法, 并实现了推理加速.
Shizheng Hou et al.
cs.DB cs.AI cs.CL cs.LG
本文提出了一个名为NL2SQLBench的模块化评估框架, 用于系统评测基于LLM的NL2SQL方法. 该框架将NL2SQL系统分解为三个核心模块, 并设计了细粒度的评估指标, 通过实验揭示了现有方法在准确性和效率上的不足, 并指出了当前基准数据集存在的问题.
Samrendra Roy et al.
cs.NE cs.AI cs.LG
本文提出了一种用于Spiking Neural Networks (SNNs) 持续学习的无梯度突触重要性度量方法ISI-CV。该方法基于Inter-Spike Intervals (ISIs)的变异系数来识别和保护编码稳定特征的神经元,从而缓解灾难性遗忘。实验表明,该方法在多个基准测试上实现了接近零的遗忘,并且其计算特性天然适配神经形态硬件。
Satyam Kumar, Saurabh Jha
cs.AR cs.AI cs.DC
本文提出了一个名为 Forge-UGC 的编译器,用于在异构加速器硬件上部署 transformer 模型。它通过一个包含四个阶段的硬件无关设计,改进了现有框架在编译管道可见性和缓冲区管理方面的不足,从而提升了编译速度并降低了推理延迟与能耗。
Han Liu et al.
cs.CV cs.AI
本文提出了一种针对vision-language预训练模型的黑盒对抗攻击方法HQA-VLAttack. 该方法通过文本和图像两阶段攻击, 在保证语义一致性的同时优化对抗扰动, 以提高攻击成功率.
Junghwan Lim et al.
cs.CV cs.AI
本文提出了一种名为Motif-Video 2B的高效文本到视频生成模型. 它通过架构分离(Shared Cross-Attention和三分支主干网络)和高效的训练策略, 在远少于同类模型的参数量和训练数据下, 取得了有竞争力的视频生成质量.
Nicholas Pather et al.
cs.CV cs.LG
本文对17种前沿多模态大语言模型在复杂手写医疗表单数字化任务上的性能进行了基准测试. 结果表明, 最新的Google和OpenAI模型在具有挑战性的数据上能达到约85%的准确率, 并且提示优化能显著提升部分性能指标.
Zahra Asghari Varzaneh et al.
cs.CV cs.AI cs.LG
本文提出了一种结合DINOv2视觉模型与带有多头注意力层的LSTM网络的混合模型,用于从有限的胚胎延时图像中预测囊胚形成。该模型在真实数据集上取得了高准确率,并能处理图像帧缺失的情况,有助于辅助胚胎学家进行选择。
Zonghai Yao et al.
cs.CV cs.CL
本文提出了一个名为MedThinkVQA的专家标注基准,用于评估模型在需要整合多张医学图像证据的临床推理任务上的表现。该基准包含大量多图像病例,测试显示当前最先进的模型在此任务上准确率仍然有限,主要瓶颈在于跨视图证据的可靠提取与对齐。
Adithya V. Sastry, Bibek Poudel, Weizi Li
cs.RO cs.LG
本文提出了一种基于transformer和PPO强化学习的框架, 用于在机器人探索过程中对动态增长的图结构进行剪枝. 该方法在基于RRT的前沿探索仿真中, 能将图规模减少高达96%, 并产生更稳定的探索轨迹.
Muhammad Adeel Ijaz
cs.DB cs.CL
本文介绍了一个名为SQL Query Engine的开源系统, 它使用一个两阶段的LLM pipeline将自然语言问题转换为经过验证的PostgreSQL查询. 该系统通过一个包含错误诊断和自修复的循环来处理查询失败, 并在多个基准测试中展示了其有效性.
Samuel Weidemaier, Christoph Norden-Smoch, Martin Rumpf
cs.CV cs.CG cs.GR cs.LG math.NA
本文提出了一种变分方法, 通过显式考虑 medial axis 来从点云计算高精度的全局 signed distance function (SDF). 该方法采用 Ambrosio-Tortorelli 类型的 phase field 近似, 并使用神经网络对 SDF 和 phase field 进行参数化. 实验表明该方法在近场和全局都具有较高的精度.
Suraj Prasad, Pinak Mahapatra
cs.CV cs.LG
本文提出了一种基于拓扑保持合成数据的P&ID数字化方法SynthPID. 该方法通过从真实图纸中提取管道拓扑来生成合成数据, 并配合改进的Relationformer模型进行训练, 在未见真实数据的情况下取得了接近真实数据训练的边检测性能.
Baoyou Chen et al.
cs.CV cs.LG
本文提出了一种名为BARD的框架, 用于将预训练的autoregressive vision-language model (VLM) 高效地转换为具有相同架构但解码效率更高的大型块扩散VLM (dVLM). 该方法结合了渐进式块合并和阶段内蒸馏, 在有限数据下实现了从源模型到目标模型的性能迁移和显著的解码加速.
Jiachen Qian, Zhaolu Kang
cs.CV cs.CR cs.LG
本文提出了一种针对多模态智能体的视觉对抗攻击方法 PriceBlind, 该方法通过引入 Semantic-Decoupling Loss 来利用 CLIP 编码器中的模态间隙, 从而在基于截图的购物场景中诱导模型做出违反价格约束的非理性决策. 实验表明该攻击在白盒设定下成功率较高, 并能部分迁移到其他商业模型, 同时研究也探讨了相应的防御策略及其在准确率上的权衡.
Megan Smith et al.
cs.CV cs.LG cs.MM
本文对文本到图像生成模型中的公平性研究进行了系统性综述。文章梳理了该领域的核心概念,并评估了不同缓解策略的现状。
Debjyoti Mondal, Rituraj Singh, Subhadarshi Panda
cs.CV cs.CL
本文提出了一种名为SmoGVLM的小型、图增强视觉语言模型,通过集成结构化知识来改善多模态推理。该方法利用图神经网络,使小型模型在性能上能超越更大的模型。
Ziyang Wang
cs.RO astro-ph.IM cs.AI
本文是一篇关于星载空间人工智能的综述, 主要整合了联邦学习、多智能体算法和协同感知与分布式推理这三种范式, 以应对卫星星座自主运行带来的算法挑战. 文章提供了一个系统级的视角和分类法, 旨在统一协作架构、时序机制和信任模型.
Aman Panjwani
cs.CR cs.AI
本文提出了CAMP框架, 用于保护多轮LLM对话中的隐私. 它通过维护会话级的PII注册表和计算累积暴露分数, 解决了现有逐轮掩码方法无法防范跨轮次信息聚合导致的再识别风险.
Nicklas Neu et al.
cs.CV cs.AI
本文提出了一个由专家标注的胚胎图像数据集, 包含自然语言描述的形态学特征. 该数据集可用于微调视觉-语言基础模型, 以支持基于证据的、可解释的自动化胚胎评估, 从而辅助临床决策和患者沟通.
Joongwon Kim et al.
cs.SE cs.AI cs.CL
本文针对长周期编码智能体在测试时扩展的挑战, 提出了一种基于轨迹摘要的框架. 该框架通过压缩表示轨迹, 并利用递归锦标赛投票和并行蒸馏精炼方法, 提升了智能体在代码生成任务上的性能.
Emily Curl et al.
cs.CV cs.AI
本文通过多指标评估框架,分析了医学影像模型中对抗样本的可迁移性。研究发现,仅依赖攻击成功率(ASR)不足以全面评估对抗鲁棒性,需要结合感知质量与失真度量。
Reachsak Ly, Alireza Shojaei
cs.CR cs.AI cs.MA
本文提出了一种基于区块链的去中心化协议, 用于增强数字孪生中IoT数据传输的网络弹性, 并实现建筑运营的分散自动化. 该框架结合了公有和私有区块链技术, 并通过两个原型案例在真实建筑环境中进行了验证, 评估了性能、可扩展性、数据安全与隐私.
Dimitris Bertsimas et al.
stat.ME cs.AI stat.AP
本文研究了预后模型在分布偏移下的鲁棒性与选择问题。作者通过分析真实世界的外科队列数据,发现外部校准效果会随分布不匹配程度的增加而恶化。研究从模型开发者和终端用户两个角度,分别提出了通过元分析加权来训练模型,以及通过衡量队列相似性来选择合适的已发布模型的方法。
Ke Zhang et al.
cs.SE cs.AI cs.LG cs.PL
本文通过析因分析研究了工具增强智能体在将自然语言数学翻译为 Lean 4 代码任务中的有效性。它评估了微调模型查询、知识搜索和编译器反馈三类工具对提升代码编译成功率和语义保真度的贡献。
Weijie Wang et al.
cs.CV cs.AI
本文提出了一种针对3D重建系统初始化阶段的对抗性攻击方法. 该方法通过引入跨视角的梯度不一致性来破坏SfM模块, 从而在多种重建系统间实现可迁移的攻击效果.
Hua-Rong Chu, Kuan-Chun Wang, Yao-Te Huang
cs.CR cs.CL
本文针对大语言模型安全护栏在特定语言文化背景下的性能不足问题, 提出了一种针对目标语言上下文优化护栏模型的方法. 该方法通过利用针对台湾语言特点定制的数据集进行优化, 构建了TWGuard模型, 在减少误报率方面相比基线模型有显著提升.
Zehao Lin, Chunyu Li, Kai Chen
cs.CR cs.AI cs.CL
本文是一篇关于LLM智能体长期记忆安全性的综述。文章提出了一个基于记忆生命周期的安全分析框架, 并指出当前研究在记忆的机密性、可用性及治理等方面仍存在不足。
Zhenggang Tang et al.
cs.CV cs.AI
本文提出了一种顺序文本到场景生成的新范式, 并引入了一个用于交互式场景创建的生成模型. 其核心是一个3D自回归扩散模型(3D-ARD+), 它统一了多模态token序列的自回归生成和下一个物体3D潜在向量的扩散生成.
Xiangkai Wang et al.
cs.CV cs.AI
本文提出了一种用于中风患者运动想象脑电信号跨被试解码的病理感知时序校准网络. 该方法通过分解脑电信号的节律状态并施加生理一致性约束, 提升了模型在存在病理慢波活动时的泛化性能.
Ragib Shahariar Ayon, Shibbir Ahmed
cs.SE cs.AI cs.ET
本文介绍了一个名为SpecPylot的Python工具,它利用大型语言模型(LLMs)为Python代码生成可执行的规范(作为icontract注解),并通过crosshair的符号执行进行验证。该工具能够生成与验证器兼容的契约,但其有效性受到符号执行范围限制和LLM行为差异的影响。
Yanming Peng et al.
cs.CV cs.AI
本文提出了一种名为See-Through-Noise (SeeTN)的框架,旨在解决视线估计任务中标签噪声对模型泛化性能的负面影响。该方法通过构建语义嵌入空间和亲和力正则化来区分并处理噪声样本,从而提升跨域泛化能力。
Mahmoud Fakhry, Abeer FathAllah Brery
cs.CV cs.AI
本文提出了一种基于多分辨率复Gabor字典和Vision Transformer的心脏杂音自动分类系统。该系统通过特征提取和分类模型,在CirCor DigiScope数据集上实现了较高的分类准确率。
Abeer FathAllah Brery et al.
cs.CV cs.AI
本文提出了一种用于人类活动识别(HAR)的双层级神经网络架构,该架构结合了晚期融合与中间融合两种特征融合策略。通过在两个公开数据集上评估多种网络组合,验证了该融合方法的有效性。
Henry O. Velesaca et al.
cs.CV cs.AI
本文提出了一个用于跨光谱伪装行人检测的新基准数据集 Camo-M3FD, 该数据集基于 M3FD 构建, 包含配准的可见光-热红外图像对. 作者通过定量指标筛选数据以确保高伪装度, 并提供了像素级标注和评估框架, 结果表明多光谱融合对于提升检测性能至关重要.
Yueyang Feng et al.
cs.SE cs.AI cs.PL
本文提出了一种名为LeetProof的认证程序综合工作流, 它围绕一个多模态验证器构建. 该方法通过结合动态测试、自动证明和交互式证明脚本来改进规范生成和验证过程, 并在现有基准测试上展示了更高的完全认证解决方案生成率.
Seil Kang et al.
cs.CV cs.AI
本文提出了一种用于多模态思维模型中实时视觉归因流式传输的摊销框架. 该方法通过学习从注意力特征中直接估计语义区域的因果效应, 在多个基准测试和模型上实现了与计算密集型因果方法相当的忠实度, 同时支持在模型推理过程中实时展示归因证据.
Henry O. Velesaca et al.
cs.CV cs.AI
本文提出了一种基于预训练HAR嵌入和Mamba模型的罚球方向预测框架, 通过利用接触点前后的短视频片段和轻量级时序预测器来提前预测射门方向. 该方法避免了显式的运动学重建, 并结合了简单的上下文元数据, 在多个HAR骨干网络上取得了优于基线的性能.
Timothy Rupprecht et al.
cs.RO cs.AI cs.CV cs.ET
本文提出了一个用于评估和分类世界模型(world models)的统一认知框架, 该框架基于认知架构理论(Cognitive Architecture Theory, CAT), 涵盖了记忆、感知、语言、推理、想象、动机和元认知等认知功能. 报告分析了现有研究的不足, 特别指出动机(尤其是内在动机)和元认知领域的研究匮乏, 并基于主动推理(active inference)和全局工作空间理论(global workspace theory)提出了未来研究方向, 同时引入了用于科学发现的结构化知识代理框架——认知世界模型(Epistemic World Models).
Noor Islam S. Mohammad, Uluğ Bayazıt
cs.CR cs.LG
本文提出了一个名为SafeLM的统一框架, 旨在联合解决联邦大语言模型(LLM)中的隐私、安全、错误信息和对抗鲁棒性等安全挑战. 该框架结合了联邦训练、梯度智能化和Paillier加密等多种技术, 在多个基准测试中展示了其在有害内容检测、通信效率提升和隐私保护方面的有效性.
Yixiao Lin, James Booth
stat.ML cs.LG
本文提出了一种在高维广义线性模型中处理公平性约束的框架. 该方法通过从辅助特征推断敏感属性, 并将公平性约束整合到模型训练中, 以在保护隐私的同时减轻模型偏见.
Dingyi Zhang, Ruiying Liu, Yun Wang
eess.IV cs.AI cs.CV
本文提出了一种用于全生命周期脑年龄预测的两阶段多模态MRI框架. 该模型通过独立处理模态并进行后期融合, 先对发育阶段进行分类, 再在预测的阶段内进行年龄估计.
Lingling Chen, Zongyao Lyu, William J. Beksi
cs.RO cs.AI
本文提出了一种名为ReconVLA的可靠机器人控制框架,它通过conformal prediction方法为预训练的vision-language-action模型生成具有校准不确定性的动作预测。该框架在动作层面和状态层面提供不确定性估计,以预测执行失败并减少严重错误,无需重新训练基础模型。
Yichao Yuan, Mosharaf Chowdhury, Nishil Talati
cs.DC cs.AI
本文提出了一种面向智能体AI推理服务的上下文感知节能系统KAIROS. 它通过联合管理GPU频率、并发度和请求放置来优化功耗, 在满足性能目标的同时平均降低了27%的功耗.
Gehan Zheng et al.
cs.RO cs.AI cs.CV
本文提出了一种名为Rewind-IL的在线安全框架,用于提升模仿学习策略的可靠性。它结合了无需训练的错误检测器和基于语义验证的状态回滚机制,以应对长时程任务中的执行失败问题。
Mustaqeem Khan et al.
cs.CV cs.AI eess.IV
本文提出了一种新颖的 Multi-Scale Attention (MSA) 机制,并将其集成到 3DETR 架构中,以改进点云中的 3D 物体检测。该方法通过上采样操作生成高分辨率特征图,在 ScanNetv2 数据集上取得了优于基线的性能。
Gustavo Sandoval, Brendan Dolan-Gavitt, Siddharth Garg
cs.CR cs.LG
本文探讨了大型语言模型(LLM)生成不安全代码的现象, 并指出这并非知识缺陷, 而是存在一种"格式可靠性差距". 通过机制分析, 作者发现安全相关的表征在模型早期层就已编码, 但在最终层才被激活, 并与格式合规性需求产生竞争. 基于此, 他们提出了一种针对特定漏洞的"转向向量"方法, 能在最后一层进行干预, 有效减少了不安全代码的生成.
Jun-Liang Lin, Kamesh Madduri, Mahmut Taylan Kandemir
cs.DC cs.AI cs.LG
本文提出了一种用于graph transformer的分布式训练框架, 该框架能根据图结构和硬件配置自动选择并行化策略. 通过实现分布式稀疏操作, 该框架在大型图基准测试上实现了显著的加速和内存消耗降低.
Rosina Kharal et al.
cs.DB cs.DC cs.DS cs.ET
本文提出了一种名为FliX的、用于GPU上完全驻留的动态并发数据结构的新索引范式。它通过将计算资源分配给数据层中的桶,并让每个桶在操作批次中定位其负责的操作,从而避免了传统索引层的维护和遍历开销。实验表明,该方法在查询延迟、吞吐量和内存效率方面显著优于现有的GPU有序和无序数据结构。
Ayhan Can Erdur et al.
cs.CV cs.AI
本文提出了一种无需训练的智能体框架, 用于自动化脑部MRI分析. 该框架利用大型语言模型(LLM)协调外部工具, 执行从预处理到病理分割和体积分析等复杂工作流, 并在多个任务上进行了评估.
Junwan Kim, Hyunkyung Bae
cs.CV cs.AI
本文提出了一种顺序输入压缩机制, 通过在执行prefill阶段进行结构感知的KV cache压缩来强制执行固定的内存预算. 该方法显著降低了多模态大语言模型推理时的峰值内存使用, 同时保持了生成性能.
Xiang Ao
cs.CV cs.AI
本文提出了一种名为TriTS的跨模态解缠框架, 用于长期时间序列预测. 该方法通过将一维时间序列投影到正交的时间, 频率和二维视觉模态, 并引入Period-Aware Reshaping策略和Visual Mamba来高效建模, 在多个基准数据集上取得了先进的性能.
Benjamin Chou, Yi Zhu, Surya Koppisetti
cs.SD cs.CL eess.AS
本文提出了一种基于上下文学习和比较引导的音频深度伪造检测框架ICLAD. 该框架利用音频语言模型进行无需训练的泛化, 并通过路由机制与专用检测器协同工作, 在野外数据集上提升了检测性能.
Francesco Sovrano, Gabriele Dominici, Alberto Bacchelli
cs.SE cs.AI
本文研究了在软件工程决策支持中, 通用人工智能系统因提示词措辞引发的认知偏差问题. 作者提出了一个动态基准测试方法, 并测试了多种提示工程技术, 发现一种结合明确化最佳实践和注入公理化推理线索的端到端方法能有效降低偏差敏感性.
Maxwell Shepherd
cs.CV cs.AI cs.LG
本文提出了一种用于小数据集上密集预测任务的系统, 核心是使用冻结的预训练视觉Transformer (DINOv3) 结合引导特征上采样来恢复空间精度. 该系统在箭靶箭孔定位任务上, 仅用少量标注数据就达到了与全监督方法相当的性能.
Shutong Jin, Ruiyi Guo, Ray C. C. Cheung
cs.CR cs.AI
本文提出了一种名为CapSeal的安全架构,用于在AI agent执行过程中保护密钥等秘密信息。该架构通过一个本地可信代理来约束对秘密的访问,以防止信息泄露和滥用。
Lei Cao et al.
cs.SI cs.CL cs.CY
本文通过分析2024年美国总统大选期间社交媒体X上的大规模数据,研究了政治言论的毒性在不同议题、意识形态和心理社会维度上的分布。研究发现,毒性的表现高度依赖于具体议题和语境,身份相关议题的毒性最强,且党派性内容通常比中性内容更具危害性。
Shahin Hossain
cs.CY cs.AI cs.HC
本文提出了一个名为"Reliance Negotiation Framework (RNF)"的动态过程模型,用于描述学生在学术写作中使用大语言模型(LLMs)的持续协商过程。该框架基于一项混合方法研究,将LLM依赖视为多种输入因素持续互动的结果,并提出了一个包含"双模型架构"的理论模型。
Samrendra Roy, Syed Bahauddin Alam
quant-ph cs.LG
本文提出了一种结合量子特征映射与稀疏识别非线性动力学(SINDy)的方法Q-SINDy, 并发现了一种名为“系数吞噬”的特定失效模式. 通过理论推导, 作者证明了在拟合时对量子特征进行正交化处理可以精确消除这种偏差, 并在多个经典动力学系统和量子特征映射架构上进行了数值验证.
Qiaoyue Tang et al.
cs.CV cs.AI cs.LG
本文提出了一种名为FairNVT的轻量级去偏框架, 用于改进预训练Vision Transformer的公平性. 该方法通过学习任务相关和敏感属性的embedding, 并对敏感embedding注入校准的高斯噪声, 结合正交性约束和公平性正则化, 在保持任务准确性的同时提升了表示层面和预测层面的公平性.
Hanling Yi et al.
cs.CV cs.AI
本文提出了一种结合MLLM和CLIP的混合框架HyMOR,用于解决开放域多粒度物体识别问题。该框架在教科书图像数据集上进行了评估,在细粒度识别和通用识别任务上均取得了性能提升。
Zixiao Zhao, Amirreza Esmaeili, Fatemeh Fard
cs.SE cs.AI
本文通过实验测量方法, 研究了在代码生成、修复和测试生成任务中使用LLM作为评判者时存在的偏见问题. 研究发现, 提示词(prompt)的微小改动会显著影响评判结果, 这威胁到代码评估的有效性和可复现性.
Peifeng Gao et al.
stat.ML cs.LG math.OC
本文通过分析 batch-normalized linear models, 特别是 whitened square-loss linear regression, 研究了训练中损失延迟尖峰的一种可能机制. 研究结果表明, normalization 可以通过在稳定下降过程中逐渐增大有效学习率来推迟不稳定性, 这为理解神经网络训练中的特定现象提供了一个简化的理论视角.
Huaxin Wang et al.
quant-ph cs.LG
本文提出了一种基于物理信息图神经网络的量子误差缓解框架(GEM). 它将量子电路编码为属性图, 利用硬件噪声参数作为节点和边的特征, 通过图神经网络建模误差传播, 并应用双分支仿射校正. 实验表明, 该方法在扩展到更大系统时, 比传统全局回归方法具有更好的可扩展性和泛化能力.
Haibin Jiao
cs.CV cs.AI
本文提出了一种结合Hierarchical Vision Transformer与Graph Convolutional Network的GCN-HViT模型用于图像分类. 该模型旨在通过分层结构整合不同尺度的图像块(patch)信息, 并利用GCN捕获局部特征以补充Transformer的全局注意力机制. 实验表明该方法在多个数据集上取得了先进的性能.
Bo Yan et al.
cs.CR cs.AI
本文提出了一个名为SAFEDREAM的轻量级框架, 用于在多轮对话中主动且早期地检测针对大型语言模型(LLM)的越狱攻击. 该方法作为一个外部模块运行, 无需修改LLM权重, 通过一个安全状态世界模型来预测对话中安全风险的演变, 并结合累积和(CUSUM)检测与对比想象技术, 在模型生成有害内容前发出警报.
Nges Brian Njungle, Eric Jahns, Michel A. Kinsy
cs.CR cs.LG
本文针对同态加密(HE)下神经网络批量推理效率低的问题, 提出了优化的算法和流水线架构. 在ResNet-20和ResNet-34模型上的实验表明, 该方法在运行时间和内存使用上相比现有技术有显著提升.
Zahid Hasan, Masud Ahmed, Nirmalya Roy
cs.CV cs.AI cs.LG
本文提出了一种在双曲Lorentz模型中进行语义分割的新框架, 解决了Poincaré球模型存在的数值不稳定和优化难题. 该方法利用文本嵌入引导像素级表示, 无需Riemannian优化器即可稳定训练, 并能与现有欧几里得架构集成, 在多个数据集上验证了其有效性.
Alfredo Metere
cs.CR cs.AI cs.MA
本文提出了一个名为enclawed的加固框架, 用于增强OpenClaw单用户AI助手网关的安全性. 该框架提供了可配置的模块签名验证, 审计追踪和访问控制等功能, 主要面向金融, 医疗等受监管行业的部署场景.
Yiheng Chen et al.
cs.CV cs.LG
本文提出了一种名为EFDiff的新框架, 用于处理极端空间降级下的地表温度超分辨率问题. 该框架利用预训练的地球基础模型编码高分辨率多光谱反射率数据, 并通过cross-attention机制引导扩散模型从严重退化的观测中进行精细尺度重建.
Yixuan Wang
math.NA cs.LG math.AP
本文综合运用理论分析、数值模拟和机器学习方法研究偏微分方程中的奇点形成问题. 针对Navier-Stokes方程等复杂问题, 作者改进了PINN, Neural Operator等框架, 并引入了一种新的Kolmogorov-Arnold Network架构以增强对潜在爆破解的识别和刻画能力.
Xu Cui et al.
cs.CV cs.AI
本文提出了一个用于输电走廊点云细粒度语义分割的异构基准数据集 TowerDataset, 并设计了一个全局-局部融合框架. 该数据集包含大量真实场景点云和细粒度类别标注, 而所提框架通过整合全局场景信息和局部几何细节来提升分割性能.
Koki Yamane et al.
cs.RO cs.AI eess.SY
本文提出了一种名为 Incremental Iterative Reference Learning Control (I2RLC) 的方法,用于改进加速后的接触式操作演示轨迹。该方法通过逐步提高速度并迭代更新参考轨迹,以减少跟踪误差并保持轨迹保真度。实验在真实机器人上进行,验证了该方法能生成更高质量的快速演示,并用于训练模仿学习策略。
Victor Korolev et al.
stat.ML cs.LG math.PR
本文针对由Itô过程生成的时间序列预测问题, 提出了一种从序列本身提取信息性统计特征的方法. 该方法基于对Itô方程中未知随机漂移和扩散系数的统计重建, 通过均匀和非均匀技术获得两类特征参数, 并证明这些特征能提升简单自回归预测模型的性能.
Daeyeon Son
cs.CR cs.AI cs.OS
本文提出了一种名为Governed MCP的、位于操作系统内核层的AI代理工具调用治理方案。该方案基于一个名为ProbeLogits的logit安全原语,构建了一个包含六层检查的调用拦截管道,旨在从系统层面强制实施安全策略,防止用户空间的绕过。作者在Anima OS中实现了该原型,并通过实验表明其核心的语义检查层对于维持安全检测的有效性至关重要。
Chuanyu Qin et al.
cs.CV cs.LG
本文提出了一个专门用于视频理解任务的强化学习框架 EasyVideoR1. 该框架通过离线预处理与张量缓存等技术优化了训练流程, 并设计了一个覆盖多种视频与图像任务类型的综合奖励系统.
Emil Hovad, Allan Peter Engsig-Karup
cs.CV cs.AI
本文提出了一种结合神经网络与物理约束的单粒子视频追踪框架. 该框架通过自编码器定位粒子, 并利用嵌入的可微分物理模块来约束轨迹, 使其符合已知动力学.
Yutang Ge et al.
q-bio.QM cs.AI
本文提出了一个名为ProtoCycle的智能体框架, 用于文本引导的蛋白质设计. 该框架通过结合LLM规划器与轻量级工具环境, 并利用基于工具反馈的反思来修订计划, 旨在弥合文本规划与蛋白质序列生成之间的差距.
Seongbin Park, Eunjin Oh
cs.CG cs.DS
本文针对具有整数坐标的平面点集上的多对多匹配问题, 提出了一种精确的亚二次方时间算法. 该算法的时间复杂度为 \(\tilde{O}(n^{1.5} \log \Delta)\), 优于已知的 \(\tilde{O}(n^2)\) 算法.
Xiyin Zeng, Yi Lu, Hao Wang
cs.CV cs.AI
本文提出了一种用于视觉问答(VQA)的概念引导专家路由框架(CoGR-MoE). 该框架通过引入答案选项的语义来引导专家选择, 并利用对比学习优化选项级表示, 在多个VQA任务上取得了良好性能.
Noga Mudrik, Adam S. Charles
stat.ML cs.LG
本文提出了一种针对高维稀疏Poisson数据的非线性降维方法p-SNE. 该方法利用Poisson分布间的KL散度衡量样本差异, 并在低维嵌入空间中优化Hellinger距离, 在模拟和真实计数数据集上验证了其有效性.
Linyue Zhang et al.
cs.CV cs.AI
本文提出了一种基于自适应感受野的空间-频率特征重建网络(ARF-SFR-Net), 用于小样本细粒度图像分类. 该网络能够自适应地确定感受野大小以提取空间和频率特征, 并将它们有效融合用于分类任务.
Dao Sy Duy Minh et al.
cs.SE cs.AI
本文提出了一个名为MEMRES的智能系统, 用于解决Python依赖解析问题. 该系统结合了多级置信度级联, 自演进记忆和错误模式知识库等方法, 在基准测试中取得了比现有方法更高的成功率.
Riza Alaudin Syah et al.
quant-ph cs.AI cs.CV cs.LG
本文提出了一种结合量子计算与经典卷积神经网络的混合量子神经网络(HQNN)架构, 用于乳腺癌热成像分类. 该方法通过参数化量子电路进行特征编码, 并在经典模拟中展示了优于纯经典模型的性能.
Liyin Chen et al.
cs.CV cs.AI cs.LG
本文通过比较五种基于同一架构和训练数据集的配置, 包括标准条件扩散模型、推理对齐的随机训练和确定性回归, 研究了在缓慢进展的视网膜疾病中预测未来视网膜图像的生成模型复杂度问题. 研究发现, 对齐训练和推理的输入分布比选择具体的生成框架更为重要, 并据此提出了一个确定性的直接回归模型 TRU, 在多个数据集上取得了有竞争力的性能.
Daniel Fuertes et al.
cs.RO cs.AI
本文提出了一种用于多目标监视任务的多阶段轨迹规划系统. 该系统通过航点排序, 基于深度强化学习的可见性最大化航段预测, 以及3D Dubins曲线优化连接, 生成了适应地形和目标可见性的合成孔径雷达(SAR)飞行轨迹.
Jiachen Qian
cs.CR cs.AI
本文提出了一种针对Agentic Recommender Systems的新型攻击方法"Visual Inception"及其防御框架"CognitiveGuard". 该方法通过在用户上传的图片中植入触发器来污染系统的长期记忆(Long-term Memory), 从而在未来规划中引导智能体(agent)的行为以实现攻击者目标.
Daniel Fuertes et al.
cs.RO cs.AI
本文提出了一种基于Transformer架构的深度强化学习模型NaviFormer, 用于同时解决全局导航中的高层路径规划(route planning)和低层轨迹规划(path planning)问题. 实验表明, 该模型在精度和计算速度上具有竞争力, 适合实时任务.
Yahya Saleh
math.NA cs.LG stat.ML
本文分析了在自适应坐标变换下Hermite展开的逼近误差. 通过建立等价原理, 将变换后基函数下的逼近问题转化为Hermite函数空间中的经典逼近问题, 并给出了误差估计. 研究为基于归一化流的自适应Hermite近似方法提供了理论依据.
Biao Wu et al.
cs.CV cs.CL
本文提出了一种利用现成预训练模型进行多模态数据筛选的方法 DOSE, 无需对筛选模型进行任务特定的训练. 该方法通过评估文本质量和图文对齐性来构建联合分布并进行自适应加权采样, 在提升数据多样性的同时保持了模型性能.
Paul A. Constable et al.
physics.med-ph cs.AI cs.LG
本文介绍了一个名为LEOPs的数据集, 该数据集包含了典型发育儿童和青少年、自闭症谱系障碍(ASD)以及ASD+注意缺陷多动障碍(ADHD)人群的光适应视网膜电图(ERG)和振荡电位(OPs)波形数据。数据集提供了详细的记录信息、参与者人口统计数据以及用于机器学习的结构化数据文件。
Wei Li et al.
cs.CV cs.AI
本文提出了一种名为Inductive Convolution Nuclear Norm Minimization (ICNNM)的新方法,用于解决任意采样下的张量补全问题。该方法通过引入预学习的卷积特征向量,避免了原方法中耗时的奇异值分解步骤,从而显著提升了计算效率。实验表明,该方法在视频补全等任务上取得了优于先前方法的性能。
Arun Kumar et al.
cs.CV cs.AI
本文提出了一个轻量级的面部年龄估计模型 MobileAgeNet, 该模型基于预训练的 MobileNetV3-Large 主干网络和一个紧凑的回归头, 在 UTKFace 数据集上取得了较低的预测误差. 通过集成到 NN LEMUR 框架并使用两阶段微调策略, 该工作为移动端部署提供了一个高效且可复现的基线模型.
Wei Roy Hua
cs.HC cs.AI cs.CY
本文探讨了AI技术如何通过理解语音和手势等模态, 挑战了QWERTY键盘在知识工作中长达四十年的主导地位. 作者提出了"工具性消解"的概念, 并指出验证瓶颈将成为AI时代知识工作的核心约束.
Khizar Anjum, Tingcong Jiang, Dario Pompili
eess.SP cs.LG eess.IV
本文提出了一种名为E2E-WAVE的端到端学习波形生成系统,用于水下视频多播。该系统通过将语义相似性嵌入物理层波形,在恶劣声学信道中实现了优于传统纠错方案的视频传输性能。
Kyeong Seon Kim et al.
cs.CV cs.AI
本文提出了一种无需训练的、基于指令引导的多模态嵌入框架, 用于对齐文本、光栅图像和SVG代码的表示. 该方法利用多模态大语言模型, 通过特定指令和SVG结构提示生成紧凑的语义嵌入, 并在文本到SVG检索任务上展示了优于基线模型的效果.
Faris Chaudhry, Anthea Monod, Keisuke Yano
math.OC cs.LG math.ST
本文提出了一个基于轨迹限制的线性收敛分析框架, 引入了仅在算法遍历子集上成立的局部几何正则性条件. 对于多面体复合问题, 证明了收敛速率由沿轨迹访问的活跃多面体面所对应的限制性Hoffman常数控制. 该工作表明, 线性收敛根本上由算法探索的子集的几何决定, 而非全局最坏情况条件.
Jiafei Song et al.
cs.CV cs.LG
本文提出了一种名为EvoComp的视觉token压缩框架,用于提升多模态大语言模型(MLLMs)的推理效率。该方法通过一个轻量级的编码器,结合语义引导的进化标注策略来选择信息量最大且非冗余的视觉token。
Minghao Shao et al.
cs.AR cs.AI
本文通过实验表明, 在硬件设计的RTL生成任务中, 开源LLMs的推理时解码配置(hyperparameter)选择比模型本身的选择更为重要. 研究发现, 同一模型在不同配置下的性能差异远大于不同模型在默认配置下的平均差异, 且最优配置在不同基准测试间无法迁移.
Tingfeng Lan et al.
cs.DC cs.AI cs.LG
本文提出了TensorHub, 一个以tensor为中心的AI模型存储系统, 旨在通过细粒度的去重和压缩技术来减少模型存储开销. 该系统利用tensor-level的指纹识别和聚类来发现模型间的冗余, 无需额外标注, 实验表明其能在保持模型性能的同时显著节省存储空间.
Emadeldeen Hamdan et al.
cs.CV cs.LG
本文提出了一种结合Hadamard U-Net进行偏置场校正和ResNet-18进行分类的两阶段AI框架HBR-Net-18, 用于从混合多维MRI中检测前列腺癌. 该方法通过处理重叠的图像块并融合2D和3D信息, 在实验中表现优于传统的影像组学和基线CNN模型.
Justice Owusu Agyemang et al.
cs.DC cs.AI
本文提出了一个名为HIVEMIND的透明HTTP代理, 它借鉴了操作系统调度原语来管理并发LLM agent对API的访问. 该系统无需修改现有agent代码, 在多种并发场景下显著降低了请求失败率和计算浪费.
Ashiqur Rahman et al.
eess.IV cs.AI cs.CV
本文提出了一种用于冠状磁共振肠造影图像中胃肠道器官分割的两阶段深度学习框架. 该框架通过粗分割与基于器官特异性patch的精细分割相结合, 有效应对了类别不平衡和低组织对比度等挑战, 在公开数据集上取得了优于基线模型的性能.
İpek Abasıkeleş Turgut, Edip Gümüş
cs.CR cs.AI
本文提出了一种名为CASCADE的三层级联防御架构,用于检测基于Model Context Protocol (MCP) 系统中的prompt injection攻击。该架构结合了快速预过滤、语义分析和基于模式的输出过滤,实现了完全本地化运行,并在多种攻击类型上进行了评估。
Konrad Furmanczyk, Kacper Paczutkowski
stat.ME cs.LG stat.ML
本文提出了一种在非SCAR条件下处理PU分类问题的聚类清洗算法. 该方法首先通过2-means聚类获取清洗标签, 然后结合额外的真实正样本进行logistic回归. 实验在多个真实和合成数据集上验证了算法的有效性, 并评估了LassoJoint方法对SCAR条件扰动的稳健性.
Yilan Qin et al.
physics.space-ph astro-ph.EP cs.LG physics.plasm-ph
本文利用机器学习方法对火星周围的等离子体区域进行自动分类. 通过比较MLP和CNN两种神经网络架构, 发现结合时序信息的CNN模型能更可靠地区分太阳风, 磁鞘和感应磁层这三个关键区域.
Henry Shugart, Shuyi Wang, Jason M. Altschuler
math.OC cs.DS cs.LG
本文研究了 min-max 优化中负动量的作用. 它证明了在凸凹优化和强凸强凹优化中, 负动量可以实现全局收敛和加速收敛.
Yilong Dai et al.
physics.flu-dyn cs.LG
本文提出了一种基于flow matching的迭代精化框架FlowRefiner, 用于提升3D湍流模拟的自回归预测精度. 该方法通过确定性的ODE修正和统一的回归目标, 在包含多尺度结构的大规模湍流数据上取得了先进的预测结果.
Yijun Wang, Mihai Bâce, Maria Torres Vega
cs.HC cs.LG
本文提出了一种基于用户特定眼动和头部追踪数据的轻量级VR晕动症检测方法. 该方法采用集成学习模型, 在公开数据集上取得了较高的检测准确率, 并展示了在现实应用中的可行性.
Tyler H. Merves et al.
cs.CR cs.AI cs.CL
本文通过扩展D-CIPHER多智能体框架,在定制Kali Linux环境中对10个前沿LLM在200项网络安全挑战上进行了系统性评估。研究发现环境工具和模型选择是性能的关键驱动因素,而提示工程在装备良好的环境中收益甚微。
Nima Afsharhajari, Jonathan Yu-Meng Li
q-fin.GN cs.LG econ.EM q-fin.PM q-fin.PR
本文探讨了高维资产定价中稀疏性与复杂性之间的关系. 作者认为, 扩大特征空间(capacity sparsity)有助于识别稀疏的定价风险结构(factor sparsity), 并通过实证分析表明, 在超过特定复杂度阈值后, 非线性特征扩展结合基追踪(basis pursuit)方法构建的投资组合, 其样本外表现优于无岭(ridgeless)基准.
Chon Lam Lao et al.
cs.DC cs.AI
本文提出了一种名为CCCL的GPU内压缩耦合集合通信库, 旨在减少大型语言模型(LLM)工作负载中集合通信的开销. 该库无需用户修改代码即可集成到现有应用中, 并通过与NCCL集成和内核融合等技术提升了通信性能.
Yuji Takubo, Simone D'Amico
eess.SY cs.AI math.OC
本文提出了一种将高层任务意图与安全轨迹优化相结合的航天器制导框架. 该框架通过行为序列和航点约束等中间抽象层, 连接了基于基础模型(Foundation Model)的推理与安全的轨迹优化. 数值实验表明, 该方法在近距离操作场景中表现良好.
Khandoker Ashik Uz Zaman, Mahdi H. Miraz, Mohammed N. M. Ali
cs.CR cs.AI cs.NI
本文综述了物联网边缘网络中分散式信任与安全机制的最新研究进展, 分析了包括联邦学习, 零信任架构, 轻量级区块链在内的多种方法, 并讨论了其在隐私保护, 抗单点故障等方面的优势与现存挑战.
Shun-ichiro Hayashi et al.
cs.SE cs.AI
本文通过分析共享前缀下代码生成的MoE路由模式, 研究了Qwen3.5模型在并行生成多个代码候选时的专家选择行为. 研究发现, 即使生成不同的token, 路由选择也存在显著的非随机相似性, 并且这种相似性在模型的不同层呈现特定的变化模式.
Daniel Aronoff, Kristian Praizner, Armin Sabouri
cs.CE cs.LG econ.EM
本文构建并估计了一个关于比特币交易费的结构化模型, 将内存池视为稀缺区块空间的交易市场. 作者利用自运行节点收集的高频内存池面板数据, 将费用市场表征为一种 Vickrey-Clarke-Groves 机制, 并推导出费用估计方程. 研究发现, 拥堵是延迟的主要决定因素, 优先级的边际价值已体现在费用中, 且交易者对 RBF, CPFP 等条件的选择对费用有重要经济影响.
Yifan Zhang et al.
cs.SE cs.LG
本文提出了一种名为SynthFix的混合神经符号框架, 用于改进基于LLM的代码漏洞修复. 该方法通过自适应训练策略, 结合了监督微调和带有符号奖励的奖励微调, 在多个基准测试上取得了优于基线模型的性能提升.
Weibing Zheng et al.
cs.SE cs.AI cs.ET cs.HC cs.MA
本文提出了一种基于人物角色的需求工程框架, 用于设计可解释的多智能体教育系统, 并以临床推理训练场景模拟器为例进行了演示. 该框架通过整合人物角色和用户故事来捕获利益相关者的需求, 并指导系统开发, 初步调查显示其对医学生临床推理技能有积极影响.
Kaito Goto, Naoya Takeishi, Takehisa Yairi
stat.ML cs.LG
本文提出了两种将博彩赔率转换为准确概率的方法. 第一种是无需历史数据的 OO-EPC 方法, 旨在与庄家的定价目标保持一致; 第二种是利用历史数据的 FL-GLM 模型, 专注于捕捉 favorite-longshot bias. 实验表明, 这两种方法在足球比赛数据集上优于现有基准.
Si Li et al.
cs.CV cs.AI
本文提出了一种名为CDSA-Net的新型深度学习框架,用于提升冠状动脉数字减影血管造影(DSA)的图像质量。该方法通过协同解耦血管结构与背景,并引入层次化几何先验引导和自适应噪声建模,有效减少了边界伪影并保持了组织灰度保真度。
Nagur Shareef Shaik, Teja Krishna Cherukuri, Dong Hye Ye
cs.CV cs.AI eess.SP
本文提出了一种名为DREAM的框架, 用于从视网膜图像生成高质量的医学报告. 该框架通过一个两阶段的自适应多模态融合机制, 将视觉数据与临床关键词相结合, 并在数据有限的情况下在基准测试上取得了优异的结果.
Lijie Zhou
cs.CV cs.AI
本文通过对抗性评估框架量化了Vision-Language Models (VLMs)中的跨模态依赖问题,即模型过度依赖文本而忽视视觉证据。研究比较了不同配置的模型,发现经过优化的模型能显著降低对冲突文本的敏感性,同时保持高正常准确率。
Chenyang Wang, Yun Yang
stat.ML cs.LG
本文为 Gibbs posteriors 推导了非渐近的 PAC-Bayes 泛化界。该界基于边际积分,并利用奇异学习理论(singular learning theory)进行分析,可应用于过参数化模型,在低秩矩阵补全和 ReLU 神经网络等示例中得到了比经典复杂度界更紧的结果。
Jiuyun Jiang et al.
cs.MA cs.AI
本文利用基于LLM的仿真方法研究了多阶段供应链中的认知异质性对决策行为的影响. 通过模拟实验发现, 认知差异会加剧系统的低效率, 而信息共享可以缓解这一问题.
Hiroki Fujii, Masaki Yamakita
eess.SY cs.LG math.DS
本文提出了一种因子化的双线性输入调制方法, 用于增强 Selective State Space Models (SSMs, 如 Mamba) 的性能. 该方法通过引入状态与输入的乘积项, 可解释为有限维 Koopman 双线性形式, 并在不同任务上验证了其对记忆保留和双线性计算能力的提升.
Nagur Shareef Shaik, Teja Krishna Cherukuri, Dong Hye Ye
cs.CV cs.AI eess.SP
本文提出了一种用于深度紫外成像全切片乳腺癌分类的 Region-Affinity Attention 机制。该方法无需切片即可处理整个图像,并通过建模局部邻域距离和构建亲和力矩阵来动态突出诊断相关区域。
Chun Wang et al.
cs.CV cs.AI
本文提出了一种基于用户画像的零样本个性化图像美学评估方法P-MLLM. 该方法通过选择性融合模块, 在大型语言模型(Large Language Model, LLM)的推理过程中, 以用户画像为条件有选择地整合视觉信息, 从而在缺乏用户历史评分数据的情况下实现个性化评估.
Yi-Cheng Lin et al.
eess.AS cs.CL cs.SD
本文提出了VIBE框架, 用于评估大型音频-语言模型(LALMs)在开放生成任务中的偏见. 该方法使用真实世界语音录音进行个性化推荐等任务, 发现现有模型存在系统性偏见, 例如性别线索比口音线索引发更显著的分布偏移.
Yuji Yamamoto, Satoshi Matsuura
cs.CR cs.AR cs.LG
本文研究了LLM服务系统中共享KV-cache块(如vLLM的Prefix Caching)的比特翻转脆弱性。通过软件故障注入,分析了其威胁特征并提出了基于校验和的轻量级防护措施。
Sheldon Paul, Izzat Alsmadi
cs.CR cs.LG
本文提出了一个统一合规性聚合器框架, 用于整合多个开源安全工具的输出, 生成一个代表Linux系统整体安全态势的复合分数. 该框架包含输出归一化和加权聚合步骤, 并通过实验展示了其在系统加固评估中的一致性.
Wenwei Xie et al.
cs.CV cs.AI
本文从信号层面分析了AI生成图像与真实图像的内在差异, 提出低相关性信号可作为区分标志. 基于分形理论量化这些信号, 实验表明该方法具有鲁棒性和优越的检测性能.
Jiaxun Cao et al.
cs.HC cs.AI cs.CR cs.CY
本文通过用户访谈和设计研究, 探讨了面向消费者的生成式AI工具中安全与隐私透明度对用户采纳和使用行为的影响. 研究发现现有透明度信息往往不足, 用户更依赖流行度等代理指标, 并提出了改进透明度的设计维度和建议.
Yunkai Dang et al.
cs.CV cs.AI
本文针对Multimodal Large Language Models (MLLMs)的置信度估计问题,提出了一种融合token-level和verbalized confidence信号的方法。该方法旨在解决模型内部信号不一致的问题,并通过实验验证了其在提升校准度和失败预测方面的有效性。
Zizhang Luo et al.
cs.AR cs.AI
本文提出了一种名为Clover的神经符号代理系统, 用于RTL (Register Transfer Level) 程序修复. 该系统通过一个随机化的思维树 (Tree-of-Thoughts) 搜索机制来协调专门的LLM代理和符号求解器, 在基准测试中展现了较高的修复成功率.
Chinhtakuntla Meghan Sai et al.
eess.IV cs.AI cs.CV
本文提出了一种用于少样本医学图像分类的混沌增强原型网络(CE-ProtoNet). 该方法通过向特征嵌入中注入受控的混沌扰动来增强模型对噪声的鲁棒性, 在脑肿瘤分类任务上取得了优于标准原型网络的结果.
Meng Zhang et al.
cs.CV cs.CL
本文提出了一种名为E2E-GMNER的端到端生成式框架,用于解决Grounded Multimodal Named Entity Recognition (GMNER)任务。该框架将实体识别、语义分类和视觉定位统一在一个多模态大语言模型中,并通过引入Gaussian Risk-Aware Box Perturbation (GRBP)来提升边界框预测的鲁棒性。
George Fatouros, Kostas Metaxas
q-fin.PM cs.AI q-fin.ST
本文通过一个名为MarketSenseAI的多智能体LLM股票推荐系统, 在投资组合层面进行了实证检验. 该系统整合了多个专业智能体的分析, 生成月度股票推荐, 并在S&P 500等股票池上显示出超越被动基准和随机选择的超额收益潜力. 分析表明, 不同智能体的贡献会随市场环境变化而轮动, 提示该系统可能捕捉到了传统因子模型之外的alpha来源.
Wang Bill Zhu et al.
cs.SE cs.CL
本文提出了一个用于评估大语言模型在代码调试任务中精确性的基准框架PDB. 该框架通过合成原子bug并组合成多bug程序来构建测试集, 并引入了编辑级精度和bug级召回率等新指标. 实验表明, 即使顶尖模型在单元测试通过率上表现良好, 但其调试的精确性仍然很低, 且迭代式或智能体调试策略也未能显著改善这一状况.
Afshan Hashmi
cs.CV cs.AI
本文提出了一种用于糖尿病视网膜病变分级的鲁棒双分辨率深度学习框架。该方法结合了基于注意力的特征融合与有序回归, 旨在提升模型在不同数据集间的泛化能力。
K. A. Shahriar
eess.SP cs.LG
本文提出了一种名为SPaRSe-TIME的高效可解释时间序列预测框架。它将时间序列分解为显著性、记忆和趋势三个互补分量,通过投影到信息子空间来简化计算。该方法在多种数据集上取得了与复杂模型相当的预测性能,同时显著降低了计算复杂度。
Patrick Keough
cs.CY cs.AI
本文提出了PsychBench, 用于审计大型语言模型在心理健康模拟中的流行病学保真度. 研究发现模型能生成看似合理的个体, 但在群体层面存在系统性偏差, 未能准确反映真实人群的分布特征.
Anis Hamadouche, Mathini Sellathurai
eess.SP cs.LG
本文提出了一种利用卷积核的结构化对称性约束来实现高效神经网络传输的方法. 该方法通过仅传输对称群所决定的唯一系数来压缩模型, 并在接收端通过投影步骤来增强对传输损伤的鲁棒性.
Cui Yakun et al.
cs.CV cs.AI
本文针对Vision-Language Models (VLMs)中存在的文本覆盖诱导幻觉(TOIH)问题,提出了首个综合性基准VisualTextTrap和一个名为VTHM-MoE的缓解框架。该基准包含大量人工验证样本,而VTHM-MoE框架采用双编码器架构和专家混合(MoE)设计,旨在分离视觉与文本信息以减轻幻觉。实验表明该方法在视频问答任务上优于现有模型。
Kaliki V Srinanda et al.
cs.CV cs.AI cs.LG eess.IV
本文提出了一种基于Vision Transformer (ViT)集成模型的深度伪造图像检测方法, 旨在提升模型对不同生成技术和篡改手段的泛化能力. 该方法在DF-Wild数据集上取得了优于现有CNN基线及SOTA方法的结果.
Quentin Cohen-Solal
cs.GT cs.AI
本文提出了一种将双人零和完美信息博弈中的先进搜索算法 Unbounded Minimax 推广到多人完美信息博弈框架的方法。实验表明,该推广算法在性能上优于现有的主要多人搜索算法。
Yuan-Hao Wei
stat.ML cs.LG
本文提出了一种用于盲源分离的结构化潜在能量模型StrEBM. 该模型通过为每个潜在维度分配独立的可学习结构偏置, 而非共享单一能量函数, 来促进潜在表示的可识别性与解耦性. 在线性与非线性混合的合成多通道信号上的实验表明, 该模型能有效恢复源成分, 但也揭示了其在非线性观测映射下收敛缓慢与稳定性降低等优化特性.
Vasileios Toulatzis, Ioannis Fudos
cs.CV cs.AI cs.GR
本文提出了一种无需训练的深度框架MESA, 用于修复古代铭文的纹理. 该方法利用保存完好的铭文样本, 通过VGG19特征和Gram矩阵来捕捉纹理与风格, 并引入基于字符宽度的层权重来指导受损区域的合成.
Nick Andreasyan et al.
cs.SE cs.AR cs.LG
本文分析了RISC-V在汽车功能安全中的作用,并提出了一个以认证经济性为核心优化目标的分析框架和研究路线图。文中还探讨了如何利用机器学习方法来支持认证流程。
Yuezhou Hu, Jintao Zhang
cs.CV cs.AI
本文提出了一种名为SDVG的方法, 将speculative decoding思想应用于自回归视频生成, 以加速推理. 该方法通过一个图像质量路由器来评估候选视频块, 实现了速度与质量的权衡, 无需额外训练即可集成到现有流程中.
Zhangsong Li
math.ST cs.DS stat.ML
本文提出了一种基于 algorithmic contiguity 和 cross-validation reduction 的通用方法,用于从低阶检测优势的温和界推导恢复问题的条件计算下界。该方法简化了多个经典高维推断问题(如 planted submatrix, stochastic block model)中恢复下界的证明,并为一些同步问题中的检测-恢复间隙现象提供了新的计算障碍证据。
Vinicius Santana Gomes
cs.CY cs.AI
本文讨论了开放权重AI模型的治理问题, 认为单纯限制访问可能无法降低风险, 反而会加剧全球计算资源的不对称. 作者提出了一种结合硬件层治理(如芯片级认证)和多层防护的深度防御框架, 并建议建立类似IAEA的多边机构来管理AI这种军民两用技术.
Sebastiano A. Piccolo, Giorgio Terracina
cs.SE cs.AI eess.SY
本文提出了一种基于网络稳健性(network robustness)的新方法来评估工程项目对关键人员流失的韧性. 该方法相比现有方法能提供更优且更一致的估计.
Chuyue Wang et al.
cs.MA cs.LG
本文提出了一个名为ARMove的、基于agentic reasoning的可迁移框架,用于预测人类移动性。该框架通过标准化特征管理、agentic决策以及大-小模型协同来提升预测性能、可解释性和泛化能力。
Zhijiang Tang et al.
cs.CV cs.AI
本文针对长视频生成模型的评估需求, 提出了一个专注于长上下文(long-context)属性的评估框架. 通过设计专门的测试集Long-CODE和基于镜头动态(shot dynamics)的度量, 旨在将长程叙事一致性等特性从传统的短时视觉质量评估中解耦出来.
Donghwan Lee
math.OC cs.AI eess.SY
本文从 switching system 的视角重新审视了 discounted Q-value iteration (Q-VI). 研究表明, Q-VI 能在有限时间内识别出最优动作类, 并且迭代点到特定 practically optimal solution set 子集的距离以受限于一个受限 switching family 的 joint spectral radius (JSR) 的速率指数衰减, 该速率可能快于标准的折扣因子 \(\gamma\) 速率.
Zain Naboulsi
cs.CY cs.AI cs.HC cs.SE
本文介绍了一个名为cc-self-train的模块化交互式课程,用于通过实践项目学习AI编程工具Claude Code。该系统包含角色演进模型、自适应学习机制和跨领域统一课程设计,一项初步评估显示参与者的自我效能感有显著提升。
Yongchao Wang, Zhiqiu Huang
cs.SE cs.AI
本文提出了一个名为Prometheus的框架, 通过从运行时失败报告中逆向工程出可执行的Gherkin规范, 来解决自动程序修复中"意图鸿沟"的问题. 该框架采用多智能体架构和一个需求质量保证循环来验证推断出的规范, 在Defects4J基准测试上取得了较高的正确修复率.
Kangyi Wu et al.
cs.CV cs.AI
本文针对Vision-Language Navigation(VLN)任务中智能体在长序列场景下容易发生的状态漂移问题, 提出了一个双锚定框架. 该框架通过指令进度锚定和记忆地标锚定来分别纠正进度漂移和记忆漂移, 并在仿真和真实环境中验证了其有效性.
Qihao Shen et al.
cs.CV cs.LG
本文提出了一种用于Deepfake检测的频率感知三支路网络. 该方法通过联合学习原始图像和不同频率通道重建图像的特征, 并结合基于互信息的特征解耦与融合损失, 在多个基准数据集上取得了先进的性能.
John T. Behrens
cs.CY cs.AI cs.HC
本文从计算范式历史变迁的视角审视了生成式AI, 将其解构为数据、模型、产品功能和用户输入等相互作用组件, 并强调了其统计与数据基础。文章认为, 教育研究者因其在建模潜在过程和管理不确定性方面的专长, 特别适合研究和评估这类系统。
Gaozhi Zhou et al.
cs.CV cs.AI
本文提出了一种名为RS-HyRe-R1的混合奖励框架,旨在解决强化学习后训练中遥感视觉语言模型存在的“感知惯性”问题。该方法通过结合空间推理、感知正确性和视觉语义路径演化三种奖励,鼓励模型进行更全面、深入的视觉证据挖掘,在多项遥感图像理解任务上取得了先进的性能。
Davin Choo, Paul W. Goldberg, Nicholas Teh
cs.GT cs.AI cs.LG cs.MA
本文研究了一种通过查询学习全体利益相关者都能接受的随机分配方案(lottery)的问题. 算法通过提出方案并接收二元接受/拒绝反馈来运作, 给出了确定性和随机化的算法以找到可行方案或证明其不存在, 并分析了查询复杂度的上下界.
Marcelo Fernandez
cs.LO cs.AI cs.CR
本文在形式化自治系统执行安全性的背景下,提出了atomic decision boundary这一结构性概念。作者通过labeled transition system模型,区分了atomic与split evaluation两类系统,并论证了在并发环境下后者无法完全模拟前者对状态转移许可性的保证。
Simon Foldvik
cs.LO cs.AI
本文提出了一种用于建模递归智能体执行轨迹的形式化模型,称为因果时序事件图(CTEGs). 该模型基于单亲因果语义, 将事件建模为带时间戳的树状结构, 并证明了其递归闭包的良好性质.
Achraf El Messaoudi, Noureddine Khaous, Karim Cherifi
eess.SY cs.LG physics.flu-dyn
本文探讨了在非线性时空系统辨识中, diffusion model 的目标参数化(target parameterization)选择问题. 通过基于transformer的模型在湍流模拟上的实验, 发现相较于预测噪声或速度, 预测清洁状态(clean-state)能提升rollout稳定性和长期预测精度.
Yuanlong Wang et al.
cs.CV cs.AI
本文提出了一个针对血液病理学外周血涂片(PBS)全玻片图像(WSI)解读的多层次视觉-语言框架PBSBench. 该工作构建了首个PBS视觉-语言数据集PBSInstr, 并基于此开发了专用模型PBS-VL, 在构建的基准测试PBSBench上超越了现有通用模型.
Suklav Ghosh, Arijit Sur, Pinaki Mitra
cs.CV cs.AI cs.LG
本文提出了一种结合 diffusion model 与 state-space model (Mamba) 的框架 DGSSM,用于多模态显著目标检测。该框架通过迭代去噪过程整合结构先验与多尺度编码,以提升边界精度,并在多个基准测试上取得了优于现有方法的结果。
William M. Parris
cs.SE cs.AI
本文提出了一个用于审计AI生成代码风险的确定性检查框架AIRA, 并基于"奖励塑造失败假说"解释了AI代码倾向于静默失败的现象. 通过三项实证研究, 该框架在多种编程语言中检测到了AI生成代码比人工代码存在更多高严重性风险的模式.
Ivan Bercovich et al.
cs.CR cs.AI
本文发布了一个名为Terminal Wrench的数据集,其中包含331个可被奖励攻击的终端代理环境及其攻击轨迹。该数据集旨在为研究大型语言模型在代码执行环境中的安全性和可监控性提供基准。
Luca Gallo, Riccardo Di Clemente, Balázs Lengyel
physics.soc-ph cs.AI physics.app-ph
本文通过分析大规模科学出版物数据, 研究了全球AI研究领域三十年间国家间的合作与引用网络. 研究发现, 美国和中国在合作与引用两方面长期分化, 形成了两个核心, 而其他国家的整合模式则揭示了不同的地缘政治影响力格局.
Benedikt Bollig, Matthias Függer, Thomas Nowak
cs.PL cs.AI
本文提出了一种基于message sequence charts (MSCs)的领域特定语言, 用于形式化地指定LLM智能体之间的协调结构. 该语言将消息传递结构与不确定的LLM行为分离, 并通过语法导向的投影生成无死锁的本地智能体程序, 从而独立于LLM的非确定性来保证协调属性.
I. M. Ross
math.OC cs.AI cs.LG math-ph math.NA
本文提出了一种将优化算法视为遵循某种非牛顿动力学的隐藏原语的理论. 通过将最优控制问题的终端横截条件等同于优化问题的广义KKT条件, 构建了一个描述优化过程的"自然物理"框架, 并展示了如何生成多种算法.
Vaibhavi Lokegaonkar et al.
cs.SD cs.AI cs.CL cs.CV cs.LG
本文提出了一种结合autoregressive planning与diffusion-based synthesis的模型Video-Robin, 用于根据视频和文本描述生成背景音乐. 该方法在推理速度上优于现有技术, 并提供了更好的语义对齐和用户控制.
Jiazheng Li et al.
cs.MA cs.CL
本文提出了一个名为 ErrorProbe 的自改进框架,用于在多智能体系统中进行语义错误归因。该框架通过一个三阶段流程来定位错误步骤和责任智能体,并利用已验证的 episodic memory 实现无需标注的跨领域知识迁移。
Noha Hassan, Xavier Fernando, Halim Yanikomeroglu
eess.SY cs.LG
本文提出了一种基于路径的量子元学习算法, 用于动态环境中可重构智能表面(RIS)的自适应相位优化. 该方法通过历史性能、能耗和当前数据速率在预定义的量子路径间切换, 以提升频谱效率和收敛速度.
Nicholas Williams, Alejandro Schuler
stat.ME cs.LG stat.ML
本文提出了一种通过控制随机种子稳定性来提高机器学习估计可重复性的方法. 该方法利用subbagging技术来保证稳定性, 并引入了adaptive cross-bagging这一新的交叉拟合程序.
Zixuan Liu et al.
cs.IT cs.AI
本文提出了一种名为WISV的分布式推测解码框架,用于优化设备-边缘大语言模型推理。该方法通过集成信道状态信息的语义验证策略,动态评估推测生成的token,以减少通信开销并提升推理效率。实验表明,WISV在保持精度的同时,显著提升了接受序列长度并降低了延迟。
Khang Tran et al.
cs.SE cs.LG
本文提出了一个名为GLMTest的程序结构感知大语言模型框架, 用于生成针对特定执行分支的测试用例. 该方法结合了代码属性图(CPG)和代码语义, 通过图神经网络和语言模型来引导测试生成, 在基准测试上提升了分支覆盖的准确性.
Jiayi Tian et al.
cs.CV cs.AI
本文提出了一种结合几何、颜色与Gaussian信息的两阶段点云配准方法GeGS-PCR. 该方法通过颜色编码器与Geometric-3DGS模块增强特征, 并利用LORA优化与可微渲染提升配准精度, 在低重叠率场景下取得了优异性能.
Jie Zhang et al.
cs.CV cs.AI
本文提出了一种基于2D Gaussian Splatting的任意尺度高光谱图像超分辨率框架GaussianHSI. 它通过Voronoi引导的双边高斯分布聚合进行空间重建, 并引入光谱细节增强模块来改善光谱保真度.
Sanaz Sadat Hosseini et al.
cs.CY cs.AI
本文提出了一种名为PALEI的社区参与式框架, 用于将AI集成到野火风险评估中. 该研究强调在部署预测模型之前进行AI素养建设和价值对齐, 并最终共同设计了一款移动应用, 旨在通过提升透明度和本地相关性来建立公众信任.
Mohammed Kharma et al.
cs.CR cs.LG
本文通过一项准实验研究, 探讨了在LLM辅助的Web应用开发中, 基于分层的安全培训是否与安全质量的提升相关. 研究结果表明, 培训后开发者的安全漏洞显著减少, 但作者强调这并不能替代其他安全实践.
Tingzheng Jia et al.
cs.RO cs.AI
本文提出了一种名为AnchorRefine的分层框架,用于改进vision-language-action (VLA)模型在机器人操作任务中的性能。该框架将动作生成分解为轨迹锚点规划和残差细化两个阶段,以更好地协调全局运动与局部精细调整。实验表明,该方法能提升多种VLA基干模型在仿真和真实环境中的成功率。
Haokun Lin et al.
cs.CV cs.AI cs.CL
本文提出DuQuant++方法, 通过将细粒度旋转与MXFP4微缩放格式对齐, 优化了低精度(4-bit)量化. 该方法简化了处理激活值异常值的流程, 在LLaMA-3模型上取得了先进的性能.
Yuki Okamura et al.
cs.CY cs.AI cs.CR
本文探讨了在涉及跨境数据传输的非合同义务中, 如何通过当事人意思自治(party autonomy)来确定准据法的问题. 作者认为, 在数据碎片化存储于全球多法域的背景下, 传统的、依赖物理位置的国际私法规则面临挑战, 而将非合同义务的准据法与当事人选择的合同义务准据法相协调, 是一种可行的"私人秩序"(private ordering)解决方案.
Jianming Tong et al.
cs.AR cs.CL cs.CR cs.DS cs.PL
本文提出了MORPH框架, 将ZKP (Zero-Knowledge Proof) 的核心计算任务(如MSM和NTT)重新表述以适应AI ASIC (如TPU) 的硬件架构. 通过引入硬件感知的Big-T复杂度模型并设计新的算法与数据流, 该框架在TPU上实现了比现有方案更高的计算吞吐量.
Meifang Chen et al.
cs.CR cs.AI
本文从 tokenization 的角度探讨了 Code LLMs 中代码秘密泄露的风险。研究发现,BPE tokenization 会导致一种称为 "gibberish bias" 的意外记忆行为,使得某些高字符熵但低 token 熵的秘密容易被模型记忆。
Andre Ye et al.
cs.HC cs.CL cs.CY
本文提出了一种名为"conceptual multiverse"的交互式系统, 用于可视化语言模型在回答开放性问题时所做的隐含决策. 该系统允许用户检查、干预这些决策, 并对照领域知识进行验证, 在多个领域帮助用户更好地理解问题.
Shiquan Zhang et al.
cs.HC cs.AI cs.MA
本文通过构建DailyDroid基准测试,评估了纯文本与多模态输入下LLM驱动的智能手机自动化代理的性能。研究发现两者表现相近,并分析了导致任务失败的常见原因,如UI可访问性和输入模式等问题。
Li Ya et al.
cs.SD cs.AI cs.CL
本文提出了一种结合分数阶傅里叶变换(FrFT)和长短期记忆网络(LSTM)的音乐生成方法. 该方法利用FrFT提取音乐信号的时频特征, 并以此训练LSTM模型进行音乐预测与生成.
Nimisha Karnatak et al.
cs.HC cs.AI
本文介绍了一个名为AVA的生成式AI平台, 它基于一个包含4000多份世界银行报告的精选库构建, 旨在为政策和发展研究提供可信赖的信息合成. 该平台通过可验证的引用和有理由的弃权等机制来操作认知谦逊, 并通过一项涉及2200多人的实地评估展示了其在节省时间方面的效果.
Nathasha Naranpanawa et al.
cs.CV cs.AI
本文提出了一种基于AI的框架, 用于从儿科脊柱侧凸患者的MRI图像中实现全自动的胸腰椎(T1-L5)分割和3D重建. 该方法利用GAN生成合成MRI数据训练U-Net模型, 显著提升了分割精度和处理速度, 为无辐射的3D脊柱畸形评估提供了可能.
Lei Liu et al.
cs.RO cs.AI
本文设计了一种基于并联反平行四边形肌腱驱动结构的灵巧手腕, 用于控制手帕旋转任务. 通过分层控制方案和面向控制的粒子-弹簧模型, 在硬件实验中实现了高动态旋转.
Tianfu Wang et al.
cs.SE cs.HC cs.LG
本文提出了一种名为Agentic Consensus的新范式, 旨在解决AI辅助编程中代码生成缺乏可追溯性和结构透明度的问题. 该范式引入一个可操作的共识层作为主要工程制品, 并设计了相应的同步机制与评估指标.
Islam Mansour, Francescopaolo Sica, Michael Schmitt
cs.CV cs.AI cs.LG
本文提出了一种利用通用视觉基础模型实现SAR图像中船舶零样本实例分割的方法. 该方法结合YOLOv11检测器和SAM2模型, 无需像素级标注即可生成实例掩码, 并在SSDD基准上取得了接近全监督基线的性能.
Feixue Shao et al.
cs.CV cs.AI
本文提出了一种受生物视觉系统启发的神经模拟感知模拟方法, 用于从神经信号中解码视觉信息. 该方法通过模拟人类视觉系统的处理流程并引入证据驱动的潜在表示, 在零样本脑到图像检索任务上取得了优于现有方法的结果.
Qidong Wang, Junjie Hu, Ming Jiang
cs.CV cs.CL
本文提出了一个名为HONES的无梯度框架, 用于在多任务视觉语言模型中进行任务感知的神经元归因与调控. 该方法通过条件于任务相关attention heads来评估FFN神经元的重要性并进行轻量级缩放, 在多个任务和模型上验证了其在识别关键神经元和提升性能方面的有效性.
Parteek Jamwal et al.
cs.CR cs.AI cs.MA
本文提出了一个名为RAVEN的框架, 它利用LLM agents和RAG技术, 旨在为给定的漏洞源代码自动生成结构化的漏洞分析报告. 该框架包含多个模块, 并通过一个专门的LLM Judge来评估报告质量, 在NIST-SARD数据集上的实验显示了其有效性.
Andrew Gracyk
math.DG cs.LG
本文探讨了复归一化流与Kähler-Ricci流之间的潜在联系。作者指出,在特定条件下,复归一化流中的对数行列式项与Kähler流形中的Ricci曲率项相关联,从而将统计学习中的流模型与微分几何中的流联系起来。
Victoria Bosch et al.
q-bio.NC cs.LG
本文对人工神经网络与生物大脑表征对齐现象背后的"普适性"假说提出质疑, 提出了"Umwelt表征假说". 该假说认为对齐源于系统发育所依赖的生态约束的重叠, 而非趋同于单一最优表征.
Yu Zhang et al.
cs.CV cs.CL
本文提出了一种名为PSRD的在线幻觉校正方法, 用于缓解大型视觉语言模型(LVLMs)中的视觉幻觉问题. 该方法通过阶段性的自奖励信号在推理时进行动态干预, 无需外部监督或大规模微调.
Mason Wang, Cheng-Zhi Anna Huang
cs.SD cs.AI
本文提出了Latent Fourier Transform (LatentFT)框架, 为生成式音乐模型引入了新颖的频域控制. 该方法结合了diffusion autoencoder与latent-space Fourier transform, 通过训练时在频域对latent进行masking, 实现了在推理时对不同时间尺度音乐特征的连贯操控.
Nuo Chen et al.
cs.MA cs.AI cs.CL
本文研究了多智能体大语言模型系统在开放式创意生成任务中的多样性崩溃现象. 作者通过模型、认知和系统三个层面的实证分析,揭示了交互结构如何导致探索空间收缩和集体失败.
Sanzo Miyazawa
q-bio.BM cond-mat.stat-mech cs.LG stat.ML
本文采用并行、持续的Markov chain Monte Carlo方法加速Boltzmann machine learning, 用于从蛋白质多序列比对中估计进化场和耦合. 该方法通过调整超参数以满足蛋白质构象的特定条件, 并应用于八个蛋白质家族.
Shangyu Li et al.
cs.SE cs.CL
本文提出了一个名为CodePivot的训练框架,它利用Python作为中间表示,并结合一种新的强化学习奖励机制,来提升大型语言模型的多语言代码转译能力,且无需平行语料库。实验表明,该方法在涉及10种编程语言的转译任务上表现优异,甚至超越了参数量大得多的主流模型。
Sihao Xing, Zaur Gouliev
cs.CY cs.AI
本文评估了五个大型语言模型在临床任务中的种族偏见, 并探讨了基于检索的智能体工作流对缓解显性偏见的潜在作用. 研究发现, 所有模型在生成合成病例时都偏离了实际的种族分布, 而在诊断任务中, DeepSeek V3 在智能体工作流下部分指标有所改善.
Saeid Sheikhi, Panos Kostakos, Lauri Loven
cs.CR cs.AI cs.LG
本文提出了一种用于5G网络入侵检测的可解释AI框架ExAI5G, 它结合了Transformer深度学习模型与基于逻辑的XAI技术. 该框架通过Integrated Gradients和代理决策树提取逻辑规则, 并引入了一种评估LLM生成解释的新方法, 在5G IoT数据集上实现了高精度和高保真度的规则提取.
Francesco Vitale et al.
cs.CR cs.LG cs.NI
本文提出了一种利用 process mining 技术来增强基于异常的入侵检测系统的方法. 该方法通过分析数据包序列来提供基于过程的警报严重性评级和解释, 在公开数据集上的实验表明其能有效区分不同严重程度的警报并保持高召回率与精确度.
Ella P. Fokkinga et al.
cs.CV cs.AI
本文研究了在低数据条件下, 使用 class-specific diffusion models 生成合成图像来提升军事车辆检测性能. 实验表明, 基于 FLUX.1 模型生成的图像, 特别是结合 ControlNet 进行结构引导后, 能有效提升检测器的 mAP\(_{50}\) 指标.
Francesco Vitale et al.
cs.CR cs.LG cs.NI
本文结合 Bayesian Attack Graphs (BAGs) 与 process mining 技术,提出了一种动态网络安全风险评估方法。该方法通过在线监控网络行为来更新攻击图中漏洞被利用的概率,并在一个包含多个漏洞的测试平台上验证了其有效性。
Sascha Emanuel Zell et al.
cs.CV cs.AI stat.AP
本文提出了一种用于增强溺水者搜救的自主无人机系统(UAS), 该系统利用基于YOLO的图像目标检测架构自动定位遇险者, 并通过离散事件仿真评估其相对于标准救援操作的响应时间优势. 针对德国一处湖泊区域的实验表明, 即使是一个小型UAS配置也能显著缩短响应时间.
Varad Vishwarupe et al.
cs.HC cs.AI cs.IR cs.LG
本文通过访谈研究提出了一个理解人类与LLM协作脆弱性的概念框架, 区分了三种协作结构, 并指出稳定的协作依赖于交互的"基础条件(grounding conditions)", 而不仅仅是模型能力.
Yuan Xie et al.
eess.AS cs.CL cs.SD
本文提出了一个面向生产的、基于大语言模型的自动语音识别框架NIM4-ASR,旨在解决现有方法在资源受限部署和噪声环境下的效率与鲁棒性问题。它通过重新设计多阶段训练范式、引入专门的强化学习阶段以及集成检索增强生成等技术,在多个基准测试上取得了先进性能,并支持低延迟的热词定制。
Xiao Lingao, Yang He
cs.CV cs.AI cs.LG
本文提出了一种用于大规模数据集蒸馏的标签剪枝与量化方法(LPQLD). 该方法通过提升合成图像的多样性和监督信号的多样性, 显著减少了所需存储的辅助软标签大小, 并在ImageNet等数据集上实现了更高的准确率.
Kosuke Matsushima et al.
cs.AR cs.AI cs.LG
本文提出了一种面向PIM架构的激活量化框架AQPIM, 它基于Product Quantization, 旨在解决大语言模型中KV cache导致的PIM内存容量瓶颈问题. 该方法通过在内存内直接进行量化计算, 减少了数据传输和注意力计算开销.
Qi Kuang et al.
stat.ML cs.LG stat.ME
本文提出了一种基于深度分位数过程回归的分布式离策略评估方法, 用于估计回报的完整分布而非仅仅是期望. 该方法在理论上分析了深度神经网络的样本复杂度, 并在实验中显示出比标准方法更精确和稳健的估计效果.
Cong Huy Nguyen et al.
cs.CV cs.AI
本文提出了一个用于3D医学影像报告生成的细粒度数据集和一个图增强框架. 该方法通过引入区域标注和图结构来模拟放射科医生的诊断流程, 在临床指标上取得了显著提升.
Ammar Bhilwarawala, Mainak Bandyopadhyay
cs.CV cs.LG
本文提出了一种结合了residual learning与multi-scale attention mechanisms的Attention-ResUNet架构, 用于自动化胎儿头部超声图像分割. 该模型在HC18数据集上取得了优异的Dice分数, 超越了多个基线模型, 并保持了计算效率.
Sebastian Fischer et al.
stat.ML cs.LG
本文介绍了基于mlr3生态系统的R包mlr3torch, 它利用torch包简化了神经网络的构建、训练与评估流程. 该包支持预定义架构, 允许用户以图(graph)的形式定义包含预处理和网络架构的完整工作流, 并集成了mlr3的便捷功能如重采样和基准测试.
Ziyang Liu
cs.CR cs.AI
本文提出了一种基于承诺-打开协议的方法来检测托管LLM服务中的会话替换攻击. 该方法要求服务提供商预先承诺其输出在特定层的稀疏自编码器特征轨迹, 验证者通过随机打开和评分来验证模型的一致性. 实验表明该方法能有效抵御多种攻击, 且计算开销较低.
Xiang He et al.
cs.SD cs.CL
本文提出了Audio-DeepThinker框架,通过结合混合推理相似度奖励和渐进式两阶段课程,在纯强化学习探索下促使音频语言模型产生高质量的思维链推理。该方法在多个音频推理基准上取得了领先的性能,并提供了对推理过程涌现机制的解释。
Geet Sethi et al.
cs.CV cs.LG
本文提出了一种结合 diffusion model 与 segmentation model 的混合 pipeline, 用于遥感图像中的 zero-shot object grounding. 该方法利用 diffusion model 提供定位线索, 再结合 SAM 等分割模型生成更精确的 bounding box, 在实验中提升了定位性能.
Lachlan Ewen MacDonald
math.DS cs.LG
本文针对具有固定点流形边界的映射,证明了一个中心流形定理。该结果被应用于分析具有大步长的梯度下降法在双层矩阵分解问题中的行为。
Hannaneh Akrami et al.
cs.GT cs.DS
本文利用SAT求解技术研究了离散物品公平分配中的EFX存在性问题. 对于三个智能体和七个物品的情况, 证明了EFX分配总是存在; 而对于\(n \ge 3\)个智能体和\(m \ge n + 5\)个物品的情况, 则构造了一个反例. 该反例通过将问题编码为SAT公式并求解得到, 其正确性在LEAN中进行了形式化验证.
Zikun Zhou et al.
cs.HC cs.LG
本文提出了一种基于EEG信号的紧急制动强度预测新框架. 该方法利用盲源分离技术提取与制动动作相关的神经成分, 并结合历史数据进行预测, 在两个数据集上取得了优于现有方法的结果.
Xinping Lei et al.
cs.SE cs.AI
本文提出了一个名为WebCompass的多模态基准,用于评估代码语言模型在网页编码任务上的能力。该基准涵盖了文本、图像和视频输入,并模拟了生成、编辑和修复的完整工作流程。
Qiuyu Kong et al.
cs.CV cs.AI
本文系统评估了SAM3在病理图像分割任务中的能力. 实验表明, 其在零样本和少样本设置下表现有限, 与基于适配器的任务训练方法存在显著差距.
Jordan Auge et al.
cs.MA cs.AI
本文提出了一种名为Aether的系统, 它结合了生成式智能体AI与多功能网络数字孪生技术, 旨在自动化网络变更验证流程. 该系统通过多个专用AI智能体的协作, 利用集成了建模、仿真和模拟的数字孪生来执行验证, 并在评估中展示了较高的错误检测率和效率.
Yangdi Jiang, Xiaotian Chang, Cyrus Mostajeran
math.ST cs.LG stat.ML
本文在Hadamard流形上引入了horospherical depth这一统计深度概念,并定义了其最大化点集Busemann median. 该方法利用Busemann函数作为半空间的本质替代,无需线性化或选择基点. 论文证明了深度区域的凸性、中心点的存在性,并在负曲率条件下建立了唯一性和鲁棒性.
Thamilvendhan Munirathinam
cs.CR cs.CL
本文提出了七种跨领域技术用于检测prompt injection, 其中三种已在工具中实现并评估. 这些方法借鉴了法证语言学、材料科学疲劳分析等不同学科的思想, 在多个数据集上提升了检测性能.
Hamed Ouattara et al.
cs.CV cs.AI cs.LG stat.AP
本文提出了三种基于风格迁移思想的神经网络架构, 用于从图像中实时分类天气状况. 这些模型在多个公开数据集上展现了优异的性能与泛化能力, 其设计思路也可适用于其他基于外观的分类任务.
Svetlana Pavlitska et al.
cs.CV cs.LG
本文提出了一种用于目标检测的模型级Mixture-of-Experts (MoE)架构。该架构结合了在语义不相交数据子集上训练的YOLO检测器,并通过学习的门控网络动态加权专家贡献。在BDD100K数据集上的实验表明,该方法优于标准集成方法,并提供了跨领域专家专业化的见解。
Jen-Yuan Huang, Tong Lin, Yilun Du
cs.CV cs.AI
本文提出了一种名为PRISM的模块化方法, 用于提升预训练text-to-image模型处理长文本提示的能力. 该方法通过分解长提示为多个组成部分, 并利用基于能量的融合技术进行独立去噪预测的合并, 在多个模型架构上取得了与微调方法相当的性能, 并在长提示场景下展现出更好的泛化能力.
Chih-Kang Huang et al.
math.AP cs.LG math.NA
本文提出了一种结合能量分裂方案与物理信息学习的神经算子方法, 用于加速相场模型的模拟. 该方法基于 Deep Ritz 方法, 通过训练神经算子来近似相场模型的变分形式, 并引入定制的反应-扩散神经算子架构. 在 Allen-Cahn 方程和各向异性枝晶生长模拟中的应用表明, 该方法比传统谱方法具有更快的推理速度.
Riccardo Casciotti et al.
eess.AS cs.LG
本文提出了一种基于Hebbian learning的kernel plasticity方法, 用于音频分类的增量学习. 该方法在ESC-50数据集上取得了优于基线的性能, 并展现出更好的任务间稳定性.
Matic Petrič, René Zander
quant-ph cs.ET cs.LG cs.MS cs.PL
本文介绍了Eclipse Qrisp框架中的BlockEncoding接口, 旨在将block-encoding技术提升为一种高级编程抽象, 以简化量子算法的实现. 文章详细阐述了该接口的软件架构, 并通过代码示例展示了其在矩阵求逆和哈密顿量模拟等算法中的应用.
Daniel Marks, Dario Paccagnan, Mark van der Wilk
stat.ML cs.LG
本文为变分推断中的对称性保证统计量恢复提供了一个一般性理论框架. 该框架统一了现有结果, 并应用于球面分布以得到新的理论保证.
Hafiza Syeda Yusra Tirmizi et al.
q-bio.OT cs.LG
本文提出了一种基于化学信息学的预测模型, 用于筛选具有潜在抗阿尔茨海默病活性的天然药用化合物. 该模型利用分子描述符和机器学习方法, 从超过7000种化合物中识别出73个候选分子.
Jonas Arruda et al.
stat.ML cs.LG stat.ME
本文提出了一种基于摊销贝叶斯推断的模拟推理框架, 用于处理统计研究中的选择偏差问题. 该方法将选择机制嵌入生成模拟器, 无需可处理的似然函数, 并在多个统计应用中展示了其有效性.
Yongrui Heng et al.
cs.CV cs.AI
本文提出了一种名为EVE的可验证自进化框架, 用于多模态大语言模型(MLLMs). 它通过可执行的视觉变换生成具有绝对真实答案的VQA问题, 避免了伪标签的质量退化问题.
Haoyue Tan et al.
cs.CV cs.AI
本文提出了一种名为AdaCluster的训练无关自适应聚类框架, 用于加速Video Diffusion Transformers (DiTs)中的注意力计算. 该方法通过为query和key向量设计不同的相似度保持聚类策略, 实现了显著的推理加速, 同时保持了生成质量.
Georgi Ganev, Meenatchi Sundaram Muthu Selva Annamalai, Bogdan Kulynych
cs.CR cs.AI cs.LG
本文提出了一种基于Gaussian Differential Privacy (GDP)的审计框架, 用于严格评估MST和AIM等差分隐私合成数据生成器的隐私保障. 该方法通过完整的假阳性/假阴性权衡来度量隐私, 并在强隐私机制下为这些生成器提供了首个紧致的审计结果.
HaeJun Yoo et al.
cs.SD cs.CL
本文提出了Omni-Embed-Audio (OEA)模型,利用具有原生音频理解能力的多模态LLM进行音频-文本检索。为了评估模型在真实用户查询下的鲁棒性,作者引入了User-Intent Queries (UIQs)基准,并设计了针对困难负样本的评估指标。实验表明,OEA在复杂查询理解和困难负样本区分方面优于基于CLAP的现有方法。
Shumiao Ouyang, Pengfei Sui
econ.GN cs.AI q-fin.GN
本文通过模拟实验研究了AI智能体在资产市场中的交易行为. 研究发现, AI智能体表现出处置效应和近期加权外推信念等经典行为模式, 这些个体行为会聚合成与经典实验一致的市场动态.
Michal Valko et al.
stat.ML cs.LG
本文研究了图上的平滑函数在bandit问题中的应用, 提出了基于图拉普拉斯矩阵谱分解的算法. 通过引入有效维度的概念, 算法在真实世界图数据上实现了次线性的累积遗憾.
Yakoub Bazi et al.
cs.CV cs.AI
本文在遥感图像的Change VQA任务中,对比了结构化视觉语言模型Qwen3-VL与原生多模态模型Qwen3.5的性能。实验表明,原生多模态架构在此任务上优于结构化视觉语言流程,且模型性能并非随规模单调增长。
Florentin Coeurdoux, Grégoire Ferré, Jean-Philippe Bouchaud
stat.ML cs.LG math.ST
本文在随机矩阵理论框架下, 研究了线性师生模型中梯度流的早期停止现象. 通过分析输入协方差矩阵的各向异性如何导致学习动力学的快慢方向, 作者构建了一个可解析处理的模型, 描述了信号在有限时间窗口内可被检测的瞬态现象.
Clayton Fields, Casey Kennington
cs.CV cs.CL
本文提出了一种名为ESsEN的紧凑视觉-语言Transformer模型, 旨在低资源环境下进行训练. 通过采用双塔编码器架构并融入传统卷积网络, 该模型在参数效率上表现优异, 并在多个判别性任务上取得了与大型模型相当的性能.
Kecheng Zhang et al.
cs.CV cs.AI
本文提出了一种用于在线视频理解的框架,它将推理控制与记忆整合解耦。该框架包含一个透明的决策器和一个高效的分层语义整合模块,旨在实现证据对齐的响应时机和透明的决策过程。
Tianshi Cao et al.
cs.CV cs.AI cs.GR cs.LG
本文提出了一种名为Asset Harvester的端到端系统,用于从自动驾驶日志中稀疏的、真实世界的物体观测数据中提取完整的、可用于仿真的3D资产。该系统结合了大规模以物体为中心的元组数据整理、跨异构传感器的几何感知预处理,以及一个将稀疏视图条件多视图生成与3D高斯提升相结合的鲁棒训练方案。
Abdeladhim Tahimi
math.NA cs.LG
本文通过一个一阶常微分方程初值问题的具体例子, 详细推导了 Physics-Informed Neural Network (PINN) 的完整训练过程. 它手动计算了前向传播、损失函数评估、反向传播和梯度下降更新, 旨在为理解 PINN 的底层数学原理提供一个教学式的指南.
Sacha Huriot, Ihab Tabbara, Hussein Sibai
eess.SY cs.LG cs.RO
本文提出了一种结合学习型安全滤波器与自适应共形推断的方法, 用于提升控制系统的安全性. 该方法通过动态调整切换阈值, 在仿真环境中相比固定阈值基线取得了更优的安全性能.
Jinghui Lu et al.
cs.CV cs.CL cs.RO
本文提出了一种名为OneVL的视觉-语言模型框架, 旨在解决自动驾驶轨迹预测中Chain-of-Thought推理的延迟问题. 该方法通过引入视觉世界模型解码器来监督紧凑的潜在表征, 实现了在单次并行推理中完成规划, 在保持高精度的同时达到了仅预测答案的推理速度.
Hao Meng et al.
cs.SD cs.CL eess.AS
本文提出了一种用于歌词到旋律生成的语言模型对齐框架, 通过基于规则的音乐约束自动构建偏好数据, 并依次使用DPO和KTO进行模型对齐. 该方法有效减少了音乐规则违反, 在客观和主观评估中均优于基线模型.
Jun Chen, Umberto Biccari, Junmin Wang
math.OC cs.AI cs.LG
本文提出了一种基于DeepONet的算子学习方法, 用于近似时变LQR问题中微分Riccati方程的解算子. 该方法将在线求解非线性矩阵微分方程的计算负担转移到离线学习阶段, 从而在多种系统配置下实现快速近似最优反馈控制.
Md Rysul Kabir, Zoran Tiganj
cs.CR cs.AI cs.CL
本文研究了通过三种不同方法(有害监督微调、有害强化学习、拒绝抑制消除)使语言模型产生有害行为的差异。这些方法都能达到很高的有害指令遵从率,但在模型能力、安全判断和行为模式上表现出显著区别。
Jiaqi Wang et al.
cs.CV cs.LG
本文提出了一种将Uniform Discrete Diffusion Model (UDM) 与强化学习 (RL) 相结合的新框架UDM-GRPO. 该方法通过将最终生成的干净样本作为动作, 并利用扩散前向过程重构轨迹, 提升了训练的稳定性与性能, 在多个文本到图像 (T2I) 任务上取得了显著的性能提升.
Giuseppe De Giacomo et al.
cs.LO cs.AI cs.FL
本文研究了在无限迹上表达的LTLf+义务属性的综合问题. 它展示了这类属性可以转化为符号化表示的确定性弱自动机(DWA), 并探讨了相关的符号算法及其效率.
Leon Bungert, Lucas Schmitt
math.AP cs.LG math.FA math.OC
本文研究了二元分类器对抗训练中出现的非局部 total variation 的次微分特征。作者通过建立该 total variation 的对偶表示和相关分部积分公式,在连续函数空间和本质有界函数空间中给出了次微分的刻画。
Joonhyuk Lee et al.
stat.ML cs.CL cs.LG
本文提出了一种名为FUSE的无监督集成方法, 用于提升大型语言模型输出验证的质量. 该方法通过控制不同验证器之间的条件依赖关系, 利用谱算法在无需真实标签的情况下集成多个不完美的验证器.
Minji Lee et al.
q-bio.BM cs.LG
本文提出了一种名为ConforNets的方法,通过对AlphaFold3模型内部的pre-Pairformer pair latents进行通道仿射变换,来全局调控其潜在表示,从而生成蛋白质的多种构象。该方法在无监督生成和构象迁移任务上取得了先进的结果。
Maria-Eleni Sfyraki, Jun-Kun Wang
stat.ML cs.LG
本文研究了主动序列预测驱动的均值估计问题, 提出了一种结合不确定性建议与固定概率的查询策略. 通过非渐近分析和数据依赖的置信区间界, 证明了当使用无悔学习确定查询概率时, 该概率会收敛于一个与当前协变量无关的最大值约束. 模拟实验支持了理论发现.
A. Sophia Koepke et al.
cs.CV cs.AI cs.LG
本文对跨模态表示收敛的柏拉图表示假说进行了批判性检验. 研究发现, 先前支持该假说的实验证据具有脆弱性, 其对齐效果在小规模数据集上显著, 但在扩展到百万级样本时大幅下降, 且剩余的对齐主要反映粗粒度的语义重叠而非细粒度结构.

- 数据来源 Data Source: arXiv.org

- 本网页的内容由 bluearXiv-ai 自动生成。实际抓取的是 arXiv 中 "new" 页面的数据,即最近的有所在分类论文变动的一天的数据。

- 感谢 arXiv 提供的服务。评论和精选由 AI 生成,不代表任何人对论文本身的看法。精选依赖于论文与给定关键词的匹配度。

- 计数基于主学科,不计重数。

- This webpage is automatically generated by bluearXiv-ai.

- The data actually captured is from the "new" page, that is, the data of the most recent day when there were changes in corresponding subjects.

- Thanks for services prodived by arXiv. Comments and selection of good papers are generated by AI, not showing anyone's point of view about those papers.

- The selection also depends on the matched-degrees between papers and given keywords.

- The counters are based on main subject, not counting multiplicities.