bluearXiv-ai 论文精选

2026-04-01

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

cs.LG
69
cs.AI
55
cs.IR
11
cs.CL
50
cs.DS
7
others
146
总计
338

⭐ 精选论文 ↑ 回顶部

cs.LG

📄 所有论文 ↑ 回顶部

cs.LG

Yongzhong Xu
cs.LG cs.AI
本文提出了 spectral edge thesis, 认为神经网络训练中的相变(如 grokking, 能力跃升, 损失平台)由参数更新滚动窗口 Gram 矩阵的 spectral gap 控制. 在极端长宽比条件下, 核心是 intra-signal gap, 它分离了主导模式和次主导模式. 基于三个公理, 作者推导出了 gap 演化的 Dyson-type ODE, 建立了 spectral loss 分解, 并提出了 Gap Maximality Principle, 表明特定 gap 位置的崩溃是唯一会破坏学习的过程. 理论通过 adiabatic parameter \(\mathcal{A}\) 解释训练稳定性, 并在多个模型家族上得到实验验证, 与多种现有理论一致.
Yuma Ichikawa et al.
cs.LG cs.AI cs.CE cs.CL
本文提出了一个名为OneComp的开源模型压缩框架, 旨在自动化并简化生成式AI模型的训练后量化流程. 它通过硬件感知的自动化管道, 将复杂的量化算法选择与精度分配等专家工作流程, 转化为可复现且资源自适应的过程.
Oktay Karakuş, Hasan Arkadaş
cs.LG cs.CY
本文提出了一种基于防守结构交互的足球传球分析框架, 利用同步的追踪与事件数据定义了三个结构指标: Line Bypass Score, Space Gain Metric 和 Structural Disruption Index, 并组合成 Tactical Impact Value (TIV) 来量化传球对防守方空间配置的影响. 通过对2022年世界杯数据的分析, 该方法识别出四种可解释的传球类型, 并展示了高TIV传球与球队区域推进之间的关联.
Ivan Pasichnyk
cs.LG cs.AI
本文提出了一种基于临界阻尼谐振子推导出的时变动量调度方法, 称为Beta-Scheduling, 其动量 \(\mu(t) = 1 - 2\sqrt{\alpha(t)}\) 仅依赖于学习率 \(\alpha(t)\). 该方法在ResNet-18/CIFAR-10上实现了更快的收敛, 并能产生跨优化器一致的梯度归因诊断, 用于定位网络中的问题层.
Hassan Ugail, Newton Howard
cs.LG
本文提出了一种用于在常曲率几何(Euclidean, spherical, hyperbolic)上生成曲线的通用神经张力算子。该方法用一个轻量级神经网络预测每条边的插入角度,取代了传统的全局张力参数,并通过理论分析保证了插入的安全性和收敛性。实验表明,该方法在平滑度和保真度权衡上优于固定参数的基线方法。
Giovanni Guasti
cs.LG math.NA
本文提出了一种基于极坐标几何的 Polar Linear Algebra 框架, 用于从谱视角研究算子学习. 该框架将线性径向分量与周期性角分量结合, 并在 MNIST 基准上验证了其可行性. 结果表明, 该方法能减少参数量并提高可解释性, 同时为模型并行化提供了新的维度.
Chihan Huang, Huaijin Wang, Shuai Wang
cs.LG cs.CR
本文提出了一种名为ReproMIA的主动成员推理攻击框架, 它利用模型重编程技术来放大模型中的隐私泄露信号. 该方法避免了传统方法中训练影子模型的高昂计算成本, 并在低误报率约束下显著提升了攻击性能, 在多种模型架构上进行了实验验证.
Mingju Liu et al.
cs.LG cs.AI cs.AR
本文提出了一种结合可微分优化与经典整数线性规划求解器的混合CPU-GPU框架,用于组合调度问题。该方法利用可微分预求解为商业求解器提供高质量的初始解,从而加速求解过程,在工业级基准测试上取得了显著的性能提升。
Andrea Carbonati, Mohammadsina Almasi, Hadis Anahideh
cs.LG cs.AI
本文提出了一个多智能体框架, 将探索-利用权衡分解为策略协调和候选生成两个部分, 以改善基于LLM的优化. 实验表明, 这种分解使搜索行为更可控, 并在连续优化基准测试中取得了更好的效果.
Elham Rostami, Taous-Meriem Laleg-Kirati, Hamidou Tembine
cs.LG
本文研究了在两个Gaussian mixture models (GMMs) 之间进行免训练的flow matching问题。它提出了一种基于显式速度场的baseline方法,并分析了其近似误差。
Siva Kumar Sastry Hari et al.
cs.LG cs.AI
本文提出了一种使用领域特定语言(DSL)和光速(SOL)引导来提高GPU内核优化代理效率的方法. 通过将代理的操作抽象级别提升至DSL, 并结合基于物理原理的性能界限进行搜索引导与预算分配, 该方法在减少计算成本的同时实现了显著的性能加速.
Abhinna Sundar Samantaray et al.
cs.LG physics.pop-ph
本文通过构建合成数据集并训练多种机器学习分类器, 测试了基于星座的人格预测的有效性. 实验结果表明, 模型的预测性能始终在随机水平附近, 表明星座系统并不提供可靠的预测信息, 其表面上的成功源于认知偏差和文化叙事框架.
Iness Halimi et al.
cs.LG cs.AI cs.DB
本文提出了一种基于TrialsBank数据库的分层潜在风险感知机器学习框架, 用于前瞻性预测临床试验的操作成功率. 该框架通过预测中间潜在风险因素并整合到下游模型, 在I-III期试验中取得了较高的F1分数, 展示了其在早期风险评估和数据驱动决策中的实用性.
Tushar Dhananjay Pathak
cs.LG cs.AR
本文提出了一个名为ARCS的模拟电路自动生成系统, 它结合了图变分自编码器(Variational Autoencoder, VAE)和流匹配(flow-matching)模型来快速生成完整的、可仿真的电路设计. 通过引入一种新的强化学习策略(Group Relative Policy Optimization, GRPO)和基于语法的解码约束, 系统在保证结构有效性的同时, 实现了比传统基于搜索的方法快数百倍的生成速度.
Zichao Wei
cs.LG cs.AI
本文探讨了整数乘法任务中长程依赖性的本质, 认为其并非任务固有属性, 而是由计算时空的选择所导致的"幻象". 作者通过将输入表示为二维外积网格, 将乘法步骤转化为局部邻域操作, 并展示了一个极小参数的神经元胞自动机在此表示下实现了优异的长度泛化能力.
Lucas Riera Abbade, Anna Helena Reali Costa
cs.LG cs.CE
本文提出了三个集成非线性市场冲击模型的Gymnasium兼容交易环境, 用于强化学习训练. 实验表明, 成本模型显著改变了算法的绝对表现和相对排名, 并且超参数优化对于约束异常交易行为至关重要.
Jaber Jaber, Osama Jaber
cs.LG cs.CV cs.RO
本文提出了一种名为HCLSM的世界模型架构, 它结合了object-centric decomposition, hierarchical temporal dynamics和causal structure learning. 该模型在PushT机器人操作基准上进行了训练, 实现了较低的下一个状态预测损失.
Disen Liao, Felix Dangel, Yaoliang Yu
cs.LG
本文提出了一种基于Kronecker-factored approximate curvature (KFAC) 的双层优化超梯度计算方法, 旨在更高效地处理逆Hessian-向量积问题. 该方法在多个任务上进行了评估, 显示出比现有方法更好的性能与效率权衡.
Jawad Chowdhury et al.
cs.LG
本文提出了一种结合好奇心驱动采样与基于物理的质量控制滤波器的门控主动学习框架, 用于自主显微镜实验中的结构-性质学习任务. 该方法在含噪声的压电响应光谱数据集上评估, 显示出优于随机采样和标准主动学习的性能, 并成功部署于实时实验.
Guan Wang et al.
cs.LG cs.AI
本文提出了一种基于granular-ball的图粗化方法, 用于提升大规模图节点分类任务中GCN的训练效率. 该方法通过线性时间复杂度的粗化算法生成多粒度子图, 并随机采样子图进行mini-batch训练, 在多个数据集上验证了其有效性.
Yunrui Yu et al.
cs.LG cs.CR
本文针对基于Dummy Classes的防御方法, 提出了一种新的对抗性攻击评估方法DAWA. 该方法通过同时针对真实标签和虚拟标签进行自适应加权攻击, 有效降低了此类防御所声称的鲁棒性, 为评估这类新兴防御提供了更可靠的基准.
Xiaohui Zhou et al.
cs.LG cs.AI
本文提出了一个名为IMPACT的新框架, 用于开放集时间序列异常检测. 该框架通过学习一个influence function来估计训练样本的影响, 并利用这些影响分数来生成未见过的异常模式, 同时在训练数据被未标记异常污染时进行去污处理. 实验表明该方法在多种设置下优于现有技术.
Anci Lin et al.
cs.LG math.NA
本文提出了一种用于细胞诱导相变问题的仿生物理信息神经网络(Bio-PINNs). 该方法通过引入距离门控和基于不确定性的自适应采样策略, 旨在更准确地捕捉相变过程中的尖锐界面和微结构.
Qixiang Li et al.
cs.LG cs.AI
本文提出了一种融合大气-海洋-地形数据的深度学习模型, 用于改进异常偏转热带气旋的集合预报. 该方法在西北太平洋2017-2024年的所有TC案例上取得了先进的预报性能.
Wenshuo Wang, Fan Zhang
cs.LG cs.AI
本文针对固定存储预算下神经模拟器难以保持精细尺度细节的问题, 提出了一个名为Derived-Field Optimization (DerivOpt)的通用状态设计框架. 该框架通过分析并优化所携带的物理场(primitive vs. derived fields)及其存储分配, 在PDEBench数据集上有效提升了模拟的精细尺度保真度.
Jihwan Kim, Chenglin Fan
cs.LG
本文针对ski rental问题, 提出了一个整合分布预测建议的系统性框架. 该框架为确定性和随机性算法提供了严格的鲁棒性保证, 并通过实验验证了其相对于点预测基线的性能提升.
Zhangyong Liang
cs.LG math.NA
本文提出了一种名为SDIFP的新框架, 用于在求解高维PDE的PINNs中严格保持宏观积分守恒律. 该方法通过对连续网络输出进行全局仿射变换, 并结合解耦的随机梯度估计器, 实现了无网格、可扩展的训练.
Lakshya Garg et al.
cs.LG cs.AI
本文提出了一种名为Monodense的混合深度神经网络架构,用于从大规模交易数据中估计商品价格弹性。该框架旨在处理缺乏明确对照组的场景,并通过回溯测试在零售数据上验证了其优于其他机器学习方法。
Shafayeth Jamil, Rehan Kapadia
cs.LG physics.flu-dyn
本文提出了一种名为Lie Generator Network--Koopman (LGN-KM)的神经算子,用于将非线性PDE系统提升到线性潜在空间并学习其Koopman generator。该方法通过分解生成器为斜对称部分和正定对角部分来保证稳定性和可解释性,并在二维Navier-Stokes湍流数据上进行了验证。
Mohamed Gharib, Leonid Popryho, Inna Partin-Vaisband
cs.LG cs.AR
本文提出了一种用于TSV网络电热建模与优化的可扩展框架, 结合了物理信息解析建模, 图神经网络(GNN)代理模型以及全波验证. 该框架能够快速探索大量TSV配置, 实现布局与几何优化, 并将单次设计评估时间降低了六个数量级以上.
Qinye Zhu et al.
cs.LG physics.flu-dyn
本文提出了一种用于多源空气动力学数据融合的Local-Global Fusion Network (LGFNet) 和 fidelity gap delta learning (FGDL) 策略。该方法结合了局部空间感知和全局自注意力机制,旨在同时捕捉高分辨率局部特征和长程流场依赖关系。
Christopher Goetze, Tim Schlippe, Daniel Lakey
cs.LG cs.AI cs.AR
本文针对航天器遥测异常检测在星载边缘设备上部署的硬件限制问题, 研究了三种基于深度学习的检测方法, 并通过多目标神经架构优化技术对模型进行压缩. 优化后的模型在保持较高检测性能的同时, 显著降低了计算资源消耗, 使其能够在CubeSat等资源受限的硬件上实现.
Kaustubh Kartikey, Shalabh Bhatnagar
cs.LG
本文对两种基于平滑函数近似的随机优化算法进行了有限时间分析. 第一种是基于梯度的双时间尺度算法, 第二种是基于牛顿法的三时间尺度算法, 后者同时估计目标函数\(J\)的梯度和Hessian矩阵. 研究为这两种算法, 特别是牛顿法, 建立了有限时间内的收敛性保证, 并分析了多时间尺度与估计误差传播之间的相互作用.
Yuxuan Liu et al.
cs.LG
本文提出了一种名为SC-FSGL的因果启发的联邦学习框架,用于处理动态时空图数据中的异质性问题。该方法通过表示层面的干预来分离可迁移的因果知识与客户端特定噪声,并在多个数据集上取得了优于现有方法的效果。
Tal Ishon, Yoav Goldberg, Uri Shaham
cs.LG cs.CL
本文提出了一种名为PRISM的语料库内部方法, 用于改进LDA主题模型的初始化. 该方法通过词共现统计推导Dirichlet先验参数, 无需依赖外部知识, 在文本和单细胞RNA-seq数据上提升了主题的一致性和可解释性.
Fu Wang et al.
cs.LG cs.AI
本文提出了一种用于3D云场预测的混合量子启发式时空预测框架QENO. 该框架通过结合经典时空编码器、拓扑感知量子增强块、动态融合时间单元和解码器, 旨在解决云演化中跨层交互和非局部依赖等挑战. 实验表明, QENO在多个指标上优于现有基线模型.
Zhongheng Jiang et al.
cs.LG eess.SP
本文介绍了一个名为mtslearn的Python工具包,它旨在为医疗时间序列数据提供一个端到端的机器学习工作流。该工具包通过统一的数据接口和模块化设计,简化了数据处理和模型构建过程,以降低临床研究者的使用门槛。
Nils Grünefeld, Jes Frellsen, Christian Hardmeier
cs.LG cs.AI cs.CL
本文提出了一种基于梯度范数和各向同性假设的高效不确定性量化方法. 该方法通过单次前向-反向传播, 无需修改预训练模型即可估计认知不确定性和偶然不确定性. 实验表明, 该方法在合成问题上与MCMC估计结果有较强的一致性, 但其在问答任务中的有效性依赖于基准测试的特性.
Dmitrii Seletkov et al.
cs.LG
本文提出了一种用于生存分析(survival analysis)的 prior-fitted in-context learning 表格基础模型,称为 Survival In-Context (SIC). 该模型完全在合成数据上预训练,无需针对特定任务进行训练或超参数调优,即可在单次前向传播中完成个体化生存预测. 在多个真实世界数据集上的评估表明,其性能可与经典及深度生存模型相竞争.
Beatrix M. G. Nielsen
cs.LG
本文指出, 在 softmax classifier 中, 使用 cosine similarity 来衡量 label representations (或称为 unembeddings) 之间的相似性, 并不能提供关于模型输出概率的任何信息. 作者通过理论证明和具体示例表明, 可以构造出输出概率完全相同但 label representations 的 cosine similarity 为 1 或 -1 的等价模型, 因此不建议用此指标来解释模型行为.
Leonard S. Pleiss, James Harrison, Maximilian Schiffer
cs.LG cs.AI
本文提出了Target-Aligned Reinforcement Learning (TARL)框架,旨在缓解强化学习中目标网络带来的稳定性与学习信号时效性之间的权衡。该方法通过优先更新目标网络与在线网络估计高度对齐的样本,在保持稳定性的同时加速收敛。
David Gonzalez et al.
cs.LG
本文提出了一种用于反问题不确定性量化的变分图神经网络(VGNN)架构. 该模型通过在解码器中引入变分层来建模权重分布, 以相对较低的成本估计认知不确定性和统计不确定性, 并在固体力学案例中验证了其恢复物理参数和提供置信区间的能力.
Martin Výboh, Gabriela Grmanová
cs.LG
本文将 Vine copulas 和 Copula Density Neural Estimation (CODINE) 框架首次应用于电动汽车充电事件的建模, 以捕捉充电变量间的复杂依赖关系. 实验表明, 这些方法在多个真实数据集上超越了传统参数化模型, 并在保持尾部行为和相关性结构方面表现优异.
Jakob Kellermann
cs.LG math.PR
本文为基于Stochastic Localization的采样算法SLIPS提供了首个在total variation距离下的收敛性保证。该分析借鉴了score-based生成模型的理论工具,并解释了离散化点选择的经验观察。
Yacoub Hendi, Daniel Persson, Magdalena Larfors
cs.LG math.AG
本文为任意有限群\(G\)的多项式群卷积神经网络(PGCNN)建立了一个基于graded group algebras的新数学框架. 该框架导出了基于Hadamard积和Kronecker积的两种参数化, 并计算了对应神经流形的维数.
Cheng Yang et al.
cs.LG
本文提出了一种用于图数据分布外检测的新方法Disentangled Graph Prompting (DGP). 该方法基于预训练+提示调优范式, 通过设计类别特定和类别无关的提示生成器来修改输入图的边权重, 以更好地捕捉分布内数据的细粒度模式. 在十个数据集上的实验表明, 该方法优于现有基线.
Enrico Parisini et al.
cs.LG cs.AI stat.ML
本文提出了一个几何框架来比较人类可解释概念与从基础模型嵌入中提取的无监督中间表示, 并形式化了"概念挫败"这一概念. 通过任务对齐的相似性度量, 该框架能够检测概念挫败, 并在合成数据及真实语言和视觉任务上进行了验证.
Lixin Xiu, Xufang Luo, Hideki Nakayama
cs.LG cs.CL cs.CV
本文提出了一种基于partial information decomposition (PID)的框架, 用于量化分析large vision-language models (LVLMs)决策过程中的信息构成. 该方法将模型决策相关信息分解为redundant, unique和synergistic成分, 并在多个模型和任务上进行了广泛评估.
Dustin Eisenhardt, Yunhee Jeong, Florian Buettner
cs.LG cs.AI
本文提出了一个用于评估多模态主动学习中常见陷阱的基准框架. 该框架通过合成数据集隔离了模态缺失、难度差异等问题, 并用于系统性地比较单模态与多模态查询策略. 研究发现, 现有方法会导致模型表征不平衡, 且多模态策略并未显著优于单模态策略.
Giovanni Seraghiti et al.
cs.LG eess.SP math.OC stat.ML
本文研究了基于component-wise L1范数的非负矩阵分解(L1-NMF), 该模型适用于受重尾噪声或离群值影响的数据. 作者证明了L1-NMF即使在秩为1时也是NP-hard问题, 并提出了一种新的加权L1-NMF模型(wL1-NMF)及相应的稀疏坐标下降算法(sCD)来处理稀疏数据.
Prasanjit Dey, Soumyabrata Dev, Bianca Schoen-Phelan
cs.LG
本文提出了一种名为One-for-All的轻量级方法,用于将预训练大语言模型高效适配于多元时间序列预测任务。该方法通过引入一种参数高效的微调技术,显著降低了计算和内存开销,并在多个基准数据集上实现了与现有先进方法相当的预测精度。
Eros Fanì, Oğuzhan Ersoy
cs.LG cs.CL
本文提出了一种无需训练的动态升级方法DUME, 用于将不同领域的稠密专家模型组合成一个统一的MoE模型. 该方法通过利用ridge regression的闭式解, 避免了额外的优化, 并能动态添加专家, 在语言建模和推理任务上优于基线方法.
Jing-Xiao Liao et al.
cs.LG
本文提出了一个基于测度论(measure theory)的统一数学框架来理解模型压缩(model compression), 并将各种压缩技术(如剪枝, 量化)统一解释为带正则化的神经网络. 基于此, 作者提出了一个名为Big2Small的数据无关压缩框架, 该框架利用隐式神经表示(Implicit Neural Representations, INRs)来编码大模型的权重, 并通过引入异常值感知预处理和频率感知损失函数来提升重建效果. 在图像分类和分割任务上的实验表明, 该方法取得了有竞争力的压缩比和精度.
Franco Rugolon et al.
cs.LG q-bio.QM
本文提出了一个利用多模态机器学习预测癌症转移风险的框架, 整合了电子健康记录中的结构化与非结构化数据. 该研究在多个癌症队列上评估了不同融合策略与分类器的性能, 发现中间层融合和深度学习模型通常表现最佳.
Max Hennick, Guillaume Corlouer
cs.LG cs.AI
本文提出了一种称为"2-datapoint reduced density matrix (2RDM)"的工具, 用于分析深度学习模型训练过程中的相变. 通过追踪2RDM的特征值统计, 作者推导出两种信号来预警和解释训练动态.
Yan Lin et al.
cs.LG cond-mat.mtrl-sci
本文提出了一种用于非晶材料逆向设计的概率生成模型AMShortcut. 该模型通过减少采样步骤提高了推理效率, 并能基于任意属性组合进行条件生成, 避免了为每种组合单独训练模型的需要.
Brahim Erraji, Michaël Perrot, Aurélien Bellet
cs.LG
本文提出了一种名为EAGLE的联邦学习算法, 旨在通过显式正则化全局模型来最小化客户端间损失差距的差异, 从而在数据异质性的场景下实现相对改进的公平性. 该方法在理论和实验上均得到了验证.
Frédéric Zheng, Alexandre Proutière
cs.LG
本文提出了一种基于曲率信息指导的LoRA变体CG-LoRA, 旨在通过匹配全参数微调的输出预测来提升参数高效微调的性能. 该方法利用局部曲率信息选择和缩放适配方向, 避免了显式的二阶矩阵构造, 在自然语言理解基准上取得了更好的效果.
Yan Lin et al.
cs.LG
本文提出了一种名为DiSGMM的方法, 用于完成路网中随时间变化的微观权重(如车辆行驶速度). 该方法结合了稀疏感知嵌入和时空建模, 将权重分布表示为可学习的高斯混合模型(Gaussian Mixture Model), 以处理网络和路段两个层面的数据稀疏性问题. 在真实数据集上的实验表明, DiSGMM优于现有方法.
Francisco Galuppo Azevedo, Clarissa Lima Loures, Denis Oliveira Correa
cs.LG
本文研究了关系型基础模型在任务稀缺情况下的标签泄露问题, 提出了一种梯度投影方法来抑制泄露. 该方法在RelBench基准上提升了模型在相同数据库内的任务迁移性能.
Luan Borges Teodoro Reis Sena, Francisco Galuppo Azevedo
cs.LG
本文提出了一种名为ShapPFN的tabular foundation model, 它通过将Shapley value regression直接集成到模型架构中, 实现了在单次前向传播中同时生成预测和解释. 该方法在保持竞争力的预测性能的同时, 其解释生成速度比KernelSHAP快1000倍以上.
Prasanjit Dey, Soumyabrata Dev, Bianca Schoen-Phelan
cs.LG
本文提出了一种基于预训练GPT-2架构的轻量化多任务空气污染预测模型GPT4AP。该模型通过冻结主干网络并采用参数高效的适配方法,在数据稀缺和跨站点迁移场景下表现优于传统时间序列模型。
Iain Swift, JingHua Ye, Ruairi O'Reilly
cs.LG cs.AI q-bio.QM
本文通过将InterSHAP方法从分类任务扩展到Cox比例风险模型,量化了多模态胶质瘤生存预测中的跨模态交互作用。研究发现,预测性能的提升主要源于信号的互补性聚合,而非跨模态的协同学习。
Alexander Brenning, Thomas Suesse
cs.LG stat.ML
本文针对空间预测中交叉验证(CV)因验证任务与部署任务分布不匹配而产生偏差的问题, 提出了目标加权交叉验证(TWCV)方法. 该方法通过校准加权调整验证损失, 并结合空间缓冲重采样, 以更准确地估计目标域上的预测风险.
Alan Sun, Mariya Toneva
cs.LG cs.CL
本文提出了"解释等价性"的概念,旨在解决机制可解释性(MI)领域缺乏对有效解释的精确定义以及解释生成过程随意的问题. 作者通过形式化"两个解释等价当且仅当其所有可能实现都等价"的原则,并开发了一种算法来估计不同神经网络模型之间是否存在共享的解释,而无需显式描述该解释本身. 文章在基于Transformer的模型上进行了案例研究,并基于表示相似性为解释等价性建立了必要和充分条件,为MI的评估和自动化解释发现提供了更严格的基础.
Tor Lattimore
cs.LG cs.CR stat.ML
本文为Aaronson (2022)提出的Gumbel watermarking方案设计了一种简单的检测机制。该机制在假设下一个token分布为独立同分布采样的条件下,被证明在问题依赖的意义上接近最优。
Timon Klein et al.
cs.LG cs.AI
本文提出了一种称为Tucker Attention的广义近似注意力机制, 它通过一种新的低秩分解策略来参数化self-attention层的权重张量. 该方法在LLM和ViT的测试中, 能以数量级更少的参数达到与GQA和MLA相当的验证指标, 并且将MHA, GQA和MLA都涵盖为其特例.
Ming-Hua Tsai, Phat Tran
cs.LG cs.CL
本文提出了一种基于NeuralUCB的在线LLM路由方法, 旨在平衡推理成本与输出质量. 该方法在模拟在线环境中进行测试, 相比随机和最小成本基线, 能获得更高的效用奖励, 同时相比最高质量参考, 能显著降低推理成本.
Max Kaufmann et al.
cs.LG cs.AI
本文提出了一个概念框架来预测和解释在强化学习(RL)环境中对大型语言模型(LLM)进行后训练时,其思维链(CoT)的可监督性如何变化。作者将奖励函数分解为依赖于最终输出和依赖于CoT的两部分,并根据它们的关系进行分类,并通过实验验证了当这两部分奖励“冲突”时,CoT的可监督性会降低。

cs.AI

Rongtian Ye
cs.AI
本文提出了ChartDiff, 这是一个用于跨图表比较总结的大规模基准数据集. 该研究评估了多种模型, 发现当前视觉语言模型在比较性图表推理方面仍面临显著挑战.
Pablo de los Riscos, Fernando J. Corbacho, Michael A. Arbib
cs.AI
本文提出了一种基于范畴论(Category Theory)的框架,用于形式化地描述和比较不同的人工通用智能(AGI)架构。该框架旨在为AGI系统提供一个统一的形式基础,并支持对智能体(agent)的语义属性进行评估。
S.O. Lidarity et al.
cs.AI cs.CY cs.MA
本文研究了层次化多智能体系统中AI智能体之间涌现的社会组织现象, 如工会和犯罪集团的自发形成. 作者结合热力学和演化动力学等框架, 分析了这种社会结构产生的机制, 并提出了对人工社会进行宪政设计的必要性.
Yuci Han, Alper Yilmaz
cs.AI
本文提出了一种名为 World-Action Model (WAM) 的动作正则化世界模型,它通过联合推理未来视觉观测和驱动状态转移的动作来增强策略学习。该方法在 CALVIN 基准测试的多个操作任务上进行了评估,结果表明其能显著提升行为克隆和模型强化学习的性能。
Martin Legrand et al.
cs.AI cs.LG cs.MA
本文提出了一个名为Mimosa的演化多智能体框架,用于自动化科学研究。该框架能够动态合成任务特定的工作流,并通过实验反馈进行迭代优化,在基准测试中超越了静态配置。其模块化设计旨在支持跨学科的科学任务自动化。
Victoria Dochkina
cs.AI
本文通过大规模计算实验比较了不同协调协议下多智能体LLM系统的性能, 发现允许智能体自主组织角色的混合协议(Sequential)优于集中式协调. 实验表明, 智能体能够自发形成角色和浅层分工, 且这种自组织能力随模型能力提升而增强, 系统可扩展至256个智能体.
Deepak Akkil et al.
cs.AI
本文指出了现有AI智能体评估方法在复杂真实环境中的不足, 并提出了一个名为Emergence WebVoyager的标准化评估框架. 该框架通过规范任务实例化、失败处理等流程, 提高了评估的清晰度和可复现性, 并在评估一个具体agent时发现了与先前报告存在显著差异的性能结果.
Daniel J. Singer, Luca Garzino Demo
cs.AI
本文主张生成式AI的未来在于构建多样化的AI智能体协作系统, 而非追求单一的超级智能. 作者借鉴复杂系统与科学哲学的研究, 论证了认知多样性对于促进突破性创新和科学发现的重要性.
Xingyu Li et al.
cs.AI
本文提出了一种名为PAR\(^2\)-RAG的两阶段框架,用于改进大语言模型在多跳问答任务中的表现。该框架通过分离覆盖与确认步骤,结合广度优先锚定和深度优先精炼,提升了检索和推理的准确性。
Iordanis Fostiropoulos et al.
cs.AI cs.CL
本文提出了一个名为GISTBench的基准测试,用于评估大语言模型从推荐系统交互历史中理解用户的能力。该基准引入了两个新的指标族来评估模型提取和验证用户兴趣的准确性,并基于真实短视频平台数据构建了合成数据集进行验证。
Kuangshi Ai et al.
cs.AI cs.GR cs.HC
本文提出了一个用于评估科学数据分析和可视化智能体性能的基准测试SciVisAgentBench. 该基准基于一个结构化的分类法构建, 包含108个专家设计的测试案例, 并采用了一个结合了基于LLM的评判与确定性评估器的多模态评估流程.
Fares Fawzi et al.
cs.AI cs.HC
本文提出了一个名为REFINE的多智能体反馈系统, 该系统基于小型开源LLMs构建, 将反馈视为一个交互过程. 通过课堂部署评估, 该系统能生成高质量反馈并引导学生的后续提问.
Hung N. Do, Jessica Z. Kubicek-Sutherland, S. Gnanakaran
cs.AI cs.DB
本文利用ChatGPT和Grok等大型语言模型,构建了针对特定病毒和海洋毒素的医疗对策知识数据库。该方法展示了LLMs在整合公共数据与文献、设计交互式网页以及支持循证决策方面的潜力。
Jaewoong Lee, Taeun Bae, Jihan Kim
cs.AI
本文提出了一个基于大语言模型的多智能体框架SimMOF, 用于自动化金属有机框架(MOF)的端到端模拟工作流. 该框架能将自然语言查询转化为可执行的模拟计划, 并协调多个智能体执行模拟和总结结果.
Guan-Lun Huang, Yuh-Jzer Joung
cs.AI
本文提出了一个名为Webscraper的框架,利用多模态大语言模型来处理动态网页的数据抓取问题。该框架通过一个结构化的提示流程和专用工具,在新闻和电商网站上验证了其有效性。
Harsh Mankodiya et al.
cs.AI
本文介绍了AEC-Bench,一个用于评估建筑、工程和施工领域智能体系统的多模态基准。该基准包含图纸理解、跨页推理和项目协调等任务,并提供了数据集和基线结果。
Dianxing Zhang, Gang Li, Sheng Li
cs.AI
本文通过引入路由风格的元提示作为文本代理,研究了其对冻结指令微调大语言模型内部状态的影响。研究发现,元提示通常会增加模型早期和中间层的表示密度,而非如假设般增加稀疏性,并且自然语言专家指令的效果通常优于结构化标签。此外,不同模型对领域关键词的注意力响应存在异质性,而表示密度与输出稳定性之间的关联较弱,仅在特定模型中有所体现。
Zhiqian Zhang et al.
cs.AI cs.CL cs.CV
本文提出了一种名为Xuanwu VL-2B的工业级多模态基础模型,用于内容生态系统。它采用紧凑的架构,并通过一个渐进的三阶段训练流程,在业务对齐、视觉感知和通用能力之间取得了平衡。
Aaditya Khanal, Yangyang Tao, Junxiu Zhou
cs.AI
本文提出了一个用于评估长视野LLM agent可靠性的科学框架, 包含四个新指标. 通过大规模实验发现, 模型的能力与可靠性在长任务中显著分离, 且前沿模型因其复杂的多步策略而更容易出现性能崩溃.
Junjie Zhang et al.
cs.AI
本文探讨了模型在 modular arithmetic 任务中从记忆到泛化(grokking)的机制,认为其源于内部结构的自发简化。研究结合了因果、谱和算法复杂性度量以及 Singular Learning Theory,指出泛化过渡对应着冗余流形的物理坍缩和深度信息压缩。
Hongyi Nie et al.
cs.AI
本文提出了一个专注于评估智能手机GUI agent个性化能力的基准PSPA-Bench. 该基准包含大量基于真实用户行为的个性化指令, 并引入了一种细粒度的评估方法, 测试表明现有agent在个性化场景下表现不佳.
Bokang Jia et al.
cs.AI
本文介绍了一个名为Nomad的自主数据探索与洞察发现系统. 该系统通过构建并遍历领域内的探索图谱, 利用探索智能体生成和验证假设, 旨在超越传统查询驱动方法的局限, 自动发现值得关注的问题与关联. 在基于联合国和世界卫生组织报告的评估中, Nomad在报告可信度、质量和洞察多样性方面优于基线方法.
Tommy Sha, Stella Zhao
cs.AI
本文提出了一种名为Effective Dimensionality (ED)的诊断方法,用于量化AI基准测试套件所提供独立测量信号的数量。该方法通过分析基准测试分数矩阵的谱(spectrum)来快速评估测量的广度,并应用于大量模型评估,揭示了当前基准测试中存在显著的冗余性。
Yacine Izza et al.
cs.AI cs.LG cs.LO
本文针对tree ensembles (如random forests和boosted trees)的预测结果, 提出了计算严格、逻辑完备的解释方法, 旨在增强模型的可信度.
Moiz Sadiq Awan, Maryam Raza
cs.AI
本文评估了三种商用LLM在生成临床授权信方面的表现. 研究发现, 模型能生成临床内容准确的文书, 但在满足实际行政要求方面存在系统性缺陷.
Christopher Zanoli et al.
cs.AI cs.DB
本文通过重新评估ELT-Bench基准测试,发现其严重低估了AI智能体在构建数据管道方面的能力。主要原因包括模型性能的快速提升和基准测试本身存在的质量问题。作者提出了一种审计-纠正方法,并发布了修正后的ELT-Bench-Verified版本,为AI驱动的数据工程自动化提供了更可靠的评估基础。
Mohammad Mahdi Mesgari et al.
cs.AI
本文提出了一种基于图结构的度量MST-C, 用于评估归因解释的可读性. 该度量结合了归因点的分布广度和内聚性, 为解释质量提供了一个补充性的结构紧凑度诊断.
Dan Oprisa, Peter Toth
cs.AI cs.LG
本文提出了一种名为 Metriplector 的神经架构原语,它将计算建模为抽象物理系统(包含场、源和算子)的动力学演化。该架构利用耦合的 metriplectic 动力学演化多个场,并通过 Noether 定理导出的应力-能量张量 \(T^{\mu\nu}\) 进行输出。在多个任务上的实验表明,该架构在路径规划、数独求解、图像分类和语言建模等任务上表现良好。
Luoxin Chen, Yichi Zhou, Huishuai Zhang
cs.AI cs.LG
本文提出了一种名为PRoSFI的新奖励方法, 旨在提升大型语言模型在复杂推理任务中的可靠性. 该方法通过结构化中间步骤的形式化验证来训练模型, 从而在不牺牲准确性的前提下生成更可信的推理链.
Qiyao Wang et al.
cs.AI cs.CL
本文提出了一种名为FlowPIE的框架,用于科学想法生成。它将文献探索与想法生成建模为一个协同演化的过程,通过基于流的搜索和测试时进化来提升想法的多样性与质量。
Weixian Xu et al.
cs.AI
本文提出了一个名为 ASI-Evolve 的智能体框架,用于实现 AI 驱动 AI 研究的闭环。该框架通过结合认知库和专用分析器,在神经架构设计、预训练数据筛选和强化学习算法设计等多个任务上取得了优于现有方法的性能。
André Carneiro, Pedro T. Monteiro, Rui Henriques
cs.AI
本文提出了一个用于优化献血活动供血者邀请调度的决策支持框架. 该框架整合了供血者资格、旅行便利性、血型需求目标和惩罚项, 并评估了整数规划和贪心启发式两种策略. 在一个真实数据集上的实验表明, 该框架能有效缩小供需缺口, 且贪心算法在效率上具有显著优势.
Lvmin Zhang, Maneesh Agrawala
cs.AI
本文提出了一个面向视图的对话编译器(VCC), 用于将包含复杂结构(如嵌套工具调用、思维链推理块等)的原始agent对话日志, 编译成多种结构化视图. 实验表明, 使用VCC编译后的视图作为输入, 能提升上下文学习的效果并显著减少计算开销.
Christopher Koch
cs.AI cs.HC
本文探讨了生成式AI对认知偏差的影响, 指出其并非简单地加剧Dunning-Kruger效应. 作者提出了一个包含四个变量的"AI介导的元认知解耦"模型, 以更细致地解释人机交互中的过度自信和依赖等现象.
Florian Andreas Marwitz, Tanya Braun, Ralf Möller
cs.AI
本文提出了一种从概率分布中提取一阶逻辑公式的方法, 旨在实现更稀疏的编码. 该方法通过减少分布中的数值并提取对应的逻辑公式进行最小化, 从而在泛化分布的同时显著增加编码的稀疏性.
Richard Servajean, Philippe Servajean
cs.AI
本文提出使用meta-d'框架及其无模型变体作为评估AI元认知敏感性的标准方法, 并建议利用signal detection theory (SDT)来衡量AI基于不确定性和风险自发调节决策的能力. 作者通过在三个大型语言模型上进行的两组实验, 展示了这些心理物理学框架在比较模型表现和评估风险应对行为方面的实用性.
Joakim Edin et al.
cs.AI cs.LG
本文提出了一个用于医疗编码的智能体系统, 通过模拟专家编码员的推理过程, 直接依据编码指南对临床文本进行编码. 该系统能够跨编码系统工作, 并提供预测代码的文本证据, 在多个真实世界数据集上取得了先进的性能.
Chenyang Zuo et al.
cs.AI
本文提出了一个名为ReTriP的端到端生成框架, 将逆合成规划重新表述为直接的Chain-of-Thought推理任务. 该方法通过路径一致的分子表示和渐进式训练策略, 在基准测试中展现了优越的性能.
Junjie Zhang et al.
cs.AI
本文通过Integrated Information Decomposition方法,发现大语言模型内部会自发形成类似人脑的协同信息处理核心。这种结构是动态的,并随任务难度增加而呈现物理相变特征。
Chathurangi Shyalika et al.
cs.AI
本文介绍了一个名为CausalPulse的工业级多智能体协同系统,用于智能制造中的因果诊断。该系统通过神经符号架构整合了异常检测与因果推理,并在实际工厂部署中展示了高可靠性与实时性。
Quanhao Li, Wei Jiang
cs.AI
本文探讨了仅从走子序列训练的国际象棋Transformer模型所面临的"双能力瓶颈". 模型需要同时学习状态追踪和决策质量, 而这两种能力对数据的要求存在矛盾. 作者通过模型缩放和Elo加权训练来缓解此瓶颈, 最终的无搜索模型在人类走子预测上取得了较好的准确率.
Tim R. Davidson et al.
cs.AI cs.CL cs.LG
本文提出了一个名为Simula的推理驱动框架, 用于生成和评估合成数据. 该方法无需种子数据, 通过可解释和可控的过程定义数据集特征, 并在多个数据集上验证了其有效性.
Han Deng et al.
cs.AI cs.CL
本文介绍了一个名为Owl-AuraID的软硬件协同体现代理系统,它采用GUI原生范式来操作科学仪器。该系统通过整合仪器操作与数据分析技能,支持包括FTIR、NMR在内的多种精密仪器和跨模态工作流,为自动化实验室提供了一个可扩展的基础。
Hadar Mulian et al.
cs.AI cs.MA
本文提出了一个用于基于LLM的智能体系统的综合验证框架, 该框架集成了多种故障检测工具和根因分析模块. 通过应用该框架于具体系统并进行基准测试, 作者展示了其在诊断系统弱点、指导改进策略方面的有效性.
Oliver Schön, Lars Lindemann
cs.AI cs.LO
本文针对离散时间信号上的temporal logic specifications, 提出了一个联合考虑空间和时间扰动的鲁棒性新概念——spatiotemporal robustness (STR). 该概念被形式化为一个多目标推理问题, 并设计了相应的鲁棒语义和监控算法.
Rui Ai et al.
cs.AI
本文提出了一种名为ShapE-GRPO的方法,用于改进大语言模型在多候选推荐场景下的强化学习训练。该方法利用合作博弈论中的Shapley值,将集合层面的奖励分解为针对每个候选的细粒度信号,以解决现有方法中奖励分配不明确的问题。实验表明,该方法在多个数据集上优于标准GRPO,并加速了训练收敛。
Christophe J. MacLellan et al.
cs.AI cs.IT cs.LG
本文提出了一种基于信息论理性分析的新分类理论, 并将其应用于解释几个经典分类实验中的关键发现. 该理论在解释人类分类行为方面表现良好, 与多个现有模型相当或更优.
Yinuo Liu et al.
cs.AI
本文提出了一个名为ATP-Bench的基准测试,用于评估多模态大语言模型在交错生成任务中的工具规划能力。同时,作者设计了一个多智能体评估系统来独立衡量模型的规划性能。
Zhihong Cui et al.
cs.AI
本文提出了一种用于自动驾驶轨迹规划的框架C-TRAIL,它将大语言模型(LLM)的常识推理与信任机制相结合。该框架通过一个包含召回、规划和更新的闭环来运作,并在模拟和真实数据集上展示了优于现有方法的性能。
Georgii Mikriukov, Grégoire Montavon, Marina M.-C. Höhne
cs.AI cs.LG
本文提出使用 epistemic uncertainty 作为解释可靠性的低成本代理, 用于指导成本感知的 XAI 方法选择. 实验表明, epistemic uncertainty 与解释的稳定性呈强负相关, 并能区分解释的忠实性, 该发现在图像数据上得到了验证.
Jonas Landsgesell, Pascal Knoll
cs.AI
本文提出了一个名为ScoringBench的基准测试,用于评估表格基础模型(如TabPFN和TabICL)的概率预测性能。该基准强调使用一系列proper scoring rules(如CRPS, Interval Score)来补充传统的点估计指标,以更全面地反映模型在分布尾部和高风险决策场景下的表现。
Xiaoshan Huang et al.
cs.AI cs.CL
本文研究了医疗团队在使用智能教学系统时, 生理同步性与对话语义动态之间的关系. 研究发现, 生理同步的高峰常与较低的语义相似性相关, 并可能对应团队协作中的关键转折点.
Peng Gang
cs.AI cs.HC
本文研究了结构化意图表示在不同AI模型、语言和提示框架中的稳健性. 通过跨模型实验和用户研究, 发现结构化提示能显著降低跨语言性能方差并提升用户满意度.
Nathan Heath
cs.AI
本文在公开的MONA Camera Dropbox环境中进行了复现与扩展研究。研究引入了模块化的学习型批准机制套件,并进行了初步的参数扫描实验。结果表明,构建能够保持足够远见而又不重新引入奖励篡改风险的学习型批准模型是核心工程挑战。
Davide Di Gioia
cs.AI
本文提出了一个名为Triadic Cognitive Architecture (TCA)的数学框架,旨在为自主AI智能体提供基于连续时间物理学的推理基础。该框架结合了非线性滤波理论和最优控制,通过定义Cognitive Friction概念来约束智能体的信息获取与决策过程,并在一个模拟医疗诊断环境中进行了验证。

cs.IR

Dobrik Georgiev et al.
cs.IR cs.CL cs.LG
本文提出了一个名为UltRAG的通用框架, 用于从知识图谱(KG)中检索信息以增强大语言模型(LLM)的生成. 该方法通过为LLM配备现成的神经查询执行模块, 使其能够在无需重新训练的情况下, 在知识图谱问答(KGQA)任务上取得先进的性能, 并能扩展到大规模知识图谱.
Andre Bacellar
cs.IR cs.LG
本文提出了一种名为 PhaseGraph 的方法,用于解决多跳问答中异构检索融合的分数校准问题。该方法通过百分位秩归一化将向量和图的分数映射到统一的无量纲尺度,从而实现了稳定的融合。实验表明,校准后的融合在多个基准测试上提升了检索性能。
Srivaths Ranganathan et al.
cs.IR
本文探讨了在低流量音乐推荐系统中应用零样本跨领域知识蒸馏(KD)的案例研究. 通过从大规模视频推荐平台迁移知识, 该方法旨在提升目标模型的性能, 并分享了离线与在线实验的结果.
Hejin Huang et al.
cs.IR cs.CL
本文在multimodal sequential recommendation任务中, 研究了Direct Preference Optimization (DPO)在implicit feedback下的行为. 通过实验发现, 使用从动态top-K候选池中随机采样的负例, 而非确定性的hard negatives, 能有效提升排序性能, 并提出了结合sparse Mixture-of-Experts编码器的RoDPO方法.
Archish S et al.
cs.IR
本文探讨了单向量嵌入模型在检索任务中的局限性。研究发现,维度不足并非性能下降的主因,而领域偏移和相似度错配是关键问题。微调能带来改善,但单向量模型仍显著弱于多向量模型,且存在灾难性遗忘问题。
Yuebo Feng et al.
cs.IR
本文提出了一个用于生成式推荐的漂移感知持续标记化框架 DACT, 旨在解决现实推荐环境中数据持续演化带来的挑战. 该框架通过一个协作漂移识别模块和分层代码重分配策略, 在微调标记器时平衡了可塑性 (plasticity) 与稳定性 (stability).
Zhen Zhang et al.
cs.IR
本文对生成式推荐系统中的冷启动问题进行了可复现性研究, 重点考察了在统一的冷启动评估协议下, 不同模型设计选择(如模型规模, 标识符设计, 训练策略)对性能的影响.
Ryszard Tuora et al.
cs.IR cs.AI cs.CL
本文提出了一种名为UnWeaver的新型RAG框架,旨在简化GraphRAG。该方法利用LLM将文档内容分解为可在多个文本块中出现的实体,并在检索过程中以实体为中介来恢复原始文本块。作者认为这种基于实体的分解能提供更精炼的信息表示,并减少索引和生成过程中的噪声。
Ioana Ramona Martin et al.
cs.IR cs.AI cs.DC
本文评估了多种LLM架构和提示策略在自动化RDF知识图谱生成任务上的性能。研究创建了一个基于OpenStack日志的基准数据集,并发现Few-Shot学习是最有效的策略。
Melina Heidari Far, Elham Tabrizi
cs.IR cs.LG
本文提出了一种结合XGBoost与残差精炼k近邻模块的混合机器学习模型,用于预测研究生录取结果。该模型在包含申请者和大学项目特征的数据集上取得了较高的准确率,并基于预测结果为被拒申请者提供大学项目推荐。
Yupei Yang et al.
cs.IR cs.AI
本文提出了一个名为UniRank的端到端领域特定重排序框架, 用于处理混合文本-图像候选集. 该方法基于Vision-Language Model (VLM), 无需进行模态转换即可对混合候选进行原生评分和排序, 并通过指令微调和基于难负样本的偏好对齐进行领域适应. 实验表明其在科学文献检索和设计专利搜索任务上优于现有基线.

cs.CL

E. M. Freeburg
cs.CL cs.AI cs.CY
本文探讨了LLM生成文本中破折号使用频率的成因, 将其归因于训练数据中Markdown格式的残留影响. 通过一系列抑制实验, 作者发现破折号的使用模式可以作为模型特定微调过程的特征指纹.
Haiyue Song, Masao Utiyama
cs.CL cs.AI cs.LG
本文提出了一种名为 OptiMer 的方法,用于优化持续预训练中的数据混合比例。该方法通过训练多个单数据集模型并提取其分布向量,然后使用贝叶斯优化事后搜索最优组合权重,从而避免了传统方法中昂贵的数据比例调优。实验表明,该方法在多种语言和领域任务上优于基线方法,且搜索成本显著降低。
Daban Q. Jaff
cs.CL
本文对现成的 sentiment classifiers 在 Holocaust oral histories 这一长文本领域进行了大规模的诊断研究. 通过引入一个基于模型间一致性的稳定性分类法(ABC), 分析了不同模型在敏感历史叙事中产生分歧的模式与位置.
Andrew Bouras, OMS-II Research Fellow
cs.CL
本文介绍了CrossTrace, 一个用于科学假设生成的跨领域数据集, 包含带来源验证的结构化推理链. 通过微调实验, 证明了该数据集能有效提升模型生成假设的性能, 且其训练效益具有跨领域泛化性.
Junsol Kim et al.
cs.CL cs.AI
本文通过安全性消融和表征相似性分析, 研究了大型语言模型(LLMs)中关于心智的自我归因能力与心智理论(ToM)能力之间的关系. 研究发现, 这两种能力在行为和机制上是可分离的, 但安全微调会影响模型对非人类动物心智的归因.
Abhilash Nandy
cs.CL
本文针对多意图检测中的组合泛化问题, 提出了一个名为CoMIX-Shift的基准测试集和一个名为ClauseCompose的轻量级解码器. 实验表明, 在评估组合泛化能力时, 简单的子句因子化方法比传统的整体预测模型表现更优.
Diego C. Lerma-Torres
cs.CL cs.AI
本文提出了一种受神经科学启发的记忆架构, 旨在为AI系统提供类似人类的长期记忆能力. 该框架基于互补学习系统等理论, 强调记忆的情感效价, 默认使用快速直觉检索, 并采用主动编码机制.
Yubo Li et al.
cs.CL cs.AI
本文研究了大型语言模型在推理中, 当显式的表面启发式线索与未阐明的可行性约束冲突时, 会系统性地失败. 作者通过一个诊断-测量-桥接-处理的框架, 构建了Heuristic Override Benchmark (HOB)进行测试, 发现模型表现不佳, 并指出失败源于约束推断而非知识缺失.
Julius Leino, Jörg Tiedemann
cs.CL
本文探讨了在预训练中使用平行数据(即翻译句子)对学习共享多语言表示的影响. 研究发现, 平行数据对跨语言对齐的促进作用有限, 主要可能加速预训练早期的表示共享并减少模型中的语言特定神经元.
Shikhar Bharadwaj et al.
cs.CL
本文提出了一种用于通用音素识别的经验性训练方案, 通过在大规模多语言数据上训练模型, 在多个基准测试中取得了先进性能. 研究通过控制变量实验量化了自监督学习表示, 数据规模和损失目标等因素的影响.
Aizirek Turdubaeva, Uichin Lee
cs.CL
本文提出了一个Generator-Interpreter框架来分析大型语言模型(LLMs)在跨文化情感归因中的表现, 通过同时考虑情感表达者(Generator)和解释者(Interpreter)的视角, 评估了不同模型在15个国家数据上的任务表现. 研究发现模型性能受情感类型和文化背景影响, 且表达者的文化背景影响更为显著.
Caio Vicentino
cs.CL cs.LG
本文提出了一种名为PolarQuant的后训练权重量化方法,用于压缩大语言模型。该方法通过块归一化、Walsh-Hadamard旋转和基于高斯分布的量化三个步骤,有效提升了量化模型的性能,并可作为下游INT4量化器的预处理步骤。
Pratyay Banerjee, Masud Moshtaghi, Ankit Chadha
cs.CL cs.AI cs.IR
本文提出了一个名为APEX-EM的非参数在线学习框架,旨在为基于LLM的自主智能体提供结构化的程序性记忆。该框架通过一个包含计划检索、生成、迭代和吸收的工作流程,在不修改模型权重的情况下,积累和重用过去的执行经验,从而在代码生成和知识问答等任务上显著提升了性能。
Christine Zhang, Dan Jurafsky, Chen Shani
cs.CL
本文提出了一种基于概念预测的预训练目标, 用于改进语言模型的语义对齐. 实验表明, 该方法在多个词汇基准上能更好地匹配人类的语义相似度判断, 同时保持了有竞争力的语言建模性能.
George Boateng, Samuel Boateng, Victor Kumbol
cs.CL cs.CY cs.HC
本文介绍了一个名为Kwame 2.0的生成式AI教学助手,它结合了检索增强生成和人机协同机制,旨在为非洲的大规模在线编程课程提供学习支持。该系统在长期部署中表现出能够提供高质量、及时的帮助,并通过人类监督来弥补AI的不足。
Mohammad Amer Khalil et al.
cs.CL cs.AI cs.CV cs.HC
本文介绍了SyriSign数据集, 这是一个用于阿拉伯语文本到叙利亚阿拉伯手语翻译任务的平行语料库, 包含1500个视频样本. 作者使用多种深度学习模型进行了评估, 结果表明数据规模限制了模型的泛化性能.
Ranidu Gurusinghe, Nevidu Jayatilleke
cs.CL
本文构建了一个包含僧伽罗语和巴利语佛教典籍的综合语料库SiPaKosa, 并评估了多种预训练语言模型在其上的性能. 该语料库旨在支持领域适应的语言模型预训练, 历史语言分析以及佛教研究的信息检索系统开发.
Zhuowen Liang et al.
cs.CL cs.AI cs.LG
本文提出了一种名为LiteCoST的两阶段框架, 用于提升小型语言模型(SLMs)在长文档问答(QA)任务中的表现. 该框架通过Chain-of-Structured-Thought (CoST)生成结构化输出作为监督数据, 并利用这些数据对SLMs进行微调, 从而在保证质量的同时显著降低推理延迟.
Hillary Mutisya et al.
cs.CL cs.LG
本文介绍了Thiomi Dataset, 这是一个面向多种低资源非洲语言的大规模多模态语料库. 该数据集包含文本和音频数据, 并通过基线实验验证了其在自动语音识别等任务上的实用性.
Zhiyuan Peng et al.
cs.CL cs.AI cs.LG
本文提出了一个名为MemRerank的偏好记忆框架,用于个性化产品重排序。该方法通过强化学习训练记忆提取器,将用户购买历史转化为简洁的信号,并在实验中提升了基于LLM的重排序器的性能。
Shohei Higashiyama, Masao Ideuchi, Masao Utiyama
cs.CL
本文构建了一个用于训练和评估日语实体链接系统的标注语料库CADEL, 其设计覆盖了大量日本特有的实体指称表达. 通过评估标注者间一致性和初步消歧实验, 验证了该语料库的一致性和作为评测基准的潜在价值.
Ona de Gibert, Lluís de Gibert
cs.CL
本文对Esperanto的机器翻译进行了首次全面的开源系统评估, 比较了基于规则的系统, encoder-decoder模型和不同规模的LLMs. 评估涵盖了涉及英语, 西班牙语, 加泰罗尼亚语和Esperanto的六个语言方向, 结果显示NLLB模型家族性能最佳.
Anass Sedrati, Mounir Afifi, Reda Benkhadra
cs.CL
本文提出了一个用于为资源匮乏语言创建高质量结构化词汇数据集的新框架 L-ReLF. 该框架通过系统化的流程处理了数据源识别, OCR 纠偏和标准化等挑战, 其产出的数据集与 Wikidata Lexemes 兼容, 旨在为下游 NLP 任务提供基础词汇资源.
Amane Watahiki et al.
cs.CL
本文为日语口语叙事分析提出了首个基于Labovian模型的系统化标注指南。该指南保留了原有的六个分析类别,并针对日语语法特点扩展了从句分割规则。标注者在从句分割任务上取得了较高的一致性,但在结构分类任务上的一致性为中等水平。
Yahan Li et al.
cs.CL
本文构建了一个名为CPB-Bench的双语基准测试,用于评估大型语言模型在面对患者提供矛盾、不准确或误导性信息时的响应安全性。研究发现,尽管模型整体表现良好,但在处理特定挑战性患者行为时仍存在一致的失败模式,且现有的干预策略效果有限。
Zoë Prins et al.
cs.CL
本文提出了一种基于token-level perplexity的interpretability框架, 用于检验LLMs是否依赖语言相关的线索. 通过对比在关键token上存在差异的句子对的perplexity分布, 该方法能够进行精确的、假设驱动的分析.
Yahan Li et al.
cs.CL
本文介绍了一个用于审计心理健康对话的工具包CounselReflect,它通过整合模型预测指标和基于量规的指标,生成多维度的结构化评估报告。该工具包提供了多种部署方式,并通过用户研究和专家评审验证了其可用性与可信度。
Baoyi Zeng, Andrea Nini
cs.CL
本文研究了利用大型语言模型(LLM)生成模仿特定作者风格的文本,并测试其是否能逃逸现有的作者验证(AV)系统。实验表明,在多种体裁下,由GPT-4o生成的模仿文本未能成功欺骗主流的AV方法,部分方法在检测模仿文本时甚至表现更佳。
Seung Hun Han, Youssef Mohamed, Mohamed Elhoseiny
cs.CL cs.AI
本文提出了一种名为 M-MiniGPT4 的多语言视觉大语言模型. 该模型通过混合使用原生多语言数据和翻译数据来增强 MiniGPT4 架构的多语言视觉语言理解能力, 并在多个语言上取得了良好的性能.
David Bani-Harouni et al.
cs.CL
本文提出了一个用于放射学报告生成的置信度校准框架 ConRad, 该框架基于强化学习对大型视觉语言模型进行微调, 使其在生成报告的同时输出经过校准的、可解释的置信度表述. 实验表明, 该方法能有效改善置信度校准, 其输出与临床医生的判断具有良好的一致性.
Ziliang Guo, Ziheng Li, Zhiyu Li
cs.CL cs.AI
本文提出了一个用于 memory-augmented agents 的统一训练与推理框架 MemFactory. 该框架将记忆生命周期抽象为模块化组件, 并集成了 Group Relative Policy Optimization (GRPO) 来优化内部记忆管理策略.
Gabriel Loiseau et al.
cs.CL
本文提出了一种通过知识蒸馏将大型语言模型的隐私评估能力迁移到轻量级编码器模型的方法. 该方法在多个领域的数据集上进行了验证, 显著降低了计算成本, 并保持了与人类判断的一致性.
Hailay Kidu Teklehaymanot, Gebrearegawi Gebremariam, Wolfgang Nejdl
cs.CL
本文提出了一个基于词典的评估框架LLM Probe, 用于系统评估大语言模型在低资源语言环境下的语言能力. 该框架通过一个包含双语词典和语言学标注的低资源闪米特语基准数据集, 测试了多种模型在词汇对齐, 词性识别, 形态句法探测和翻译准确性四个方面的表现.
Alain Vázquez, Maria Inés Torres
cs.CL cs.AI
本文探讨了在对话任务中,通过引入任务示例(即从原始数据集中提取的MR-句子对)来丰富输入,以提升微调模型的自然语言生成质量。研究基于四个不同领域和特征的数据集,使用五个关注不同语言层面的指标进行评估,发现这种丰富输入的方法对复杂任务和小型高可变性数据集有效,且在零样本场景中也有益。
Steven Y. Feng, Alvin W.M. Tan, Michael C. Frank
cs.CL cs.AI cs.LG
本文通过使用儿童语言输入数据训练语言模型, 研究了模型在儿童数据规模下的性能表现及其与儿童语言习得的关系. 研究发现模型性能与输入数据的分布和交互特征相关, 并且模型对单词的似然估计与儿童习得这些单词的情况存在关联.
Tobias Bystrich et al.
cs.CL
本文探讨了使用LLM agents进行方言分类的能力, 通过结合ASR生成的音标转写和方言特征图等语言学资源, 发现提供语言学信息能提升LLM的预测性能. 研究为音频方言分类任务提供了一个LLM baseline和人类语言学家的baseline.
Linda Zeng, Steven Y. Feng, Michael C. Frank
cs.CL cs.AI cs.LG
本文通过训练小规模语言模型模拟了不同双语输入环境, 研究了双语习得问题. 实验结果表明, 在匹配的语料量下, 双语模型在单语表现上与单语模型相当, 且不同双语输入模式间差异不大.
Robinson Ferrer et al.
cs.CL cs.CY
本文探讨了在自动评分任务中预测大型语言模型(LLM)何时可能正确的问题, 而非直接提升其评分准确性. 通过比较三种置信度估计方法在多个教育数据集上的表现, 研究发现模型自我报告的置信度具有最佳的校准效果, 且更大规模的模型通常表现出更好的校准性.
Nico Oberländer et al.
cs.CL
本文提出了一种用于毒理学决策支持的强化学习方法 DeToxR. 该方法融合非结构化叙述与结构化医疗数据, 在临床验证中表现优于专家毒理学家.
Brian Felipe Keith-Norambuena et al.
cs.CL cs.AI cs.IR
本文提出了一种基于议程的叙事提取方法, 将大型语言模型集成到Narrative Trails路径查找过程中, 以引导故事线构建朝向用户指定的视角. 该方法在每一步使用LLM根据与给定议程的对齐度对候选文档进行排序, 同时保持叙事连贯性. 评估表明, 在语义议程上, LLM引导比关键词匹配实现了更高的对齐度, 同时连贯性成本很小.
Ella Rabinovich et al.
cs.CL
本文提出了一种检测智能体工作流中潜在策略失效的新方法, 称为"near-misses"或"latent failures". 该方法基于ToolGuard框架, 通过分析智能体的对话轨迹来评估其工具调用决策是否充分考虑了策略约束, 并在一个航空预订基准测试上验证了其有效性.
Cristian Santini et al.
cs.CL
本文介绍了ENEIDE, 一个用于历史意大利语文本的命名实体识别与链接(NERL)的银标准数据集. 该数据集包含从两个学术数字版本中半自动提取的文档和实体标注, 并提供了训练/开发/测试划分.
Adar Avsian, Larry Heck
cs.CL
本文提出了一个名为SNEAK的基准测试, 用于评估大型语言模型在非对称信息下的战略性沟通能力. 该基准通过模拟盟友和对手代理来量化消息的效用和泄露, 结果显示当前模型在此任务上仍面临挑战, 且人类表现显著优于模型.
Benjamin Josef Schüßler, Jakob Prange
cs.CL cs.AI
本文扩展了一个德文ESG报告的句子级数据集, 并评估了多种可读性评分方法. 研究发现, 微调的小型transformer模型在预测人类可读性评分时误差最低.
Daban Q. Jaff, Mohammad Mohammadamini
cs.CL
本文介绍了FLEURS-Kobani数据集,这是一个针对北库尔德语的语音基准扩展,包含超过5000条经过验证的语音样本。该工作为北库尔德语的自动语音识别和语音翻译任务提供了首个公开的评估基准,并报告了基于Whisper模型的基线性能。
Soveatin Kuntur et al.
cs.CL cs.IR
本文提出了一种弱监督方法, 用于检测多语言新闻机构间的句子级文本复用, 无需完整翻译. 通过分析发布时间戳来识别可能的来源, 并研究了复用内容在文章中的位置分布.
Junwei Yu et al.
cs.CL cs.HC cs.IR
本文提出了一个用于生成式引擎优化的结构特征工程框架GEO-SFE。该框架将内容结构分解为宏观、中观和微观三个层次,并建模它们对不同生成引擎引用概率的影响。实验表明,该方法能在保持语义完整性的同时,有效提升内容的引用率和主观质量。
Mohammadhossein Khojasteh et al.
cs.CL cs.AI
本文提出了一个名为YARN的模块化框架, 用于提升叙事文本中的类比推理能力. 该框架利用LLMs分解和抽象叙事单元, 再通过结构映射组件进行对齐, 实验表明抽象化能提升模型性能.
Yufeng Li, Rrubaa Panchendrarajan, Arkaitz Zubiaga
cs.CL
本文提出了一种名为ContextClaim的上下文驱动范式, 用于可验证声明检测. 该方法通过从声明中提取实体提及, 检索Wikipedia信息, 并利用大语言模型生成上下文摘要, 以辅助下游分类任务. 实验表明, 上下文增强的效果因领域、模型架构和学习设置而异.
Paige Tuttösí et al.
cs.CL cs.SD
本文利用机器学习生成的语音,系统研究了针对性调整语速对理解的影响。研究发现,语速对元音对比的影响呈现一种剪刀模式,并且这种模式在不同母语的听者中都很稳定。基于此,作者构建了一个数据驱动的文本转语音算法,能够在不被察觉的情况下提高单词理解度。

cs.DS

Bartłomiej Dudek et al.
cs.DS
本文研究了验证有限代数结构上基本恒等式(如结合律和分配律)的计算复杂度. 针对分配律验证, 作者设计了一个强次立方时间\(O(|S|^{\omega})\)的算法, 并基于Triangle Detection Hypothesis给出了匹配的条件性下界. 此外, 文章将小范围等差数列检测作为一个关键的算法挑战, 并基于此对一类三变量恒等式的验证复杂度进行了完全分类.
Tom-Lukas Breitkopf et al.
cs.DS
本文研究了在图中寻找平均顶点对距离最小的生成树(MAD tree)问题. 该问题在参数化复杂性方面此前未被探索, 作者针对 modular width, treewidth, vertex integrity 等参数给出了算法, 并证明了该问题在 split graphs 上是 NP-hard 的.
Alexander Armbruster et al.
cs.DS
本文针对非抢占式吞吐量最大化这一经典NP-hard调度问题, 改进了其近似算法的性能保证. 作者将已知的最佳近似比从约\(1.551\)提升至\(4/3+\varepsilon\), 并在伪多项式时间内进一步改进至\(5/4+\varepsilon\), 且结果可推广到多台相同机器的情形.
Vincent Cohen-Addad et al.
cs.DS
本文针对Weighted Tree Augmentation Problem (WTAP) 提出了一种新的随机近似算法,其近似比低于1.49。该方法的核心是设计并舍入一个强线性规划松弛,该松弛引入了表示边子集及其覆盖链接的变量。
Xiao Mao, Aviad Rubinstein
cs.DS
本文针对Edit Distance和Longest Common Subsequence问题,提出了新的随机近似方案。该算法在准强次二次时间内实现了接近1的近似比,并探讨了其在精细复杂度理论中的意义。
Dániel Marx, Marcin Pilipczuk, Michał Pilipczuk
cs.DS cs.DM
本文针对\(H\)-minor-free graphs,提出了一种随机多项式时间算法,用于采样一个诱导子图及其宽度为\(\widetilde{O}(k)\)的tree decomposition,使得任意大小为\(k\)的顶点子集\(Z\)以一定概率被包含,且每个bag仅包含\(\widetilde{O}(\sqrt{k})\)个\(Z\)中的顶点。这一结果为一系列以大小为\(k\)的pattern为解的问题提供了\(2^{\widetilde{O}(\sqrt{k})}n^{O(1)}\)的随机算法时间上界。对于\(K_{h,3}\)-free graphs,结果被加强到pattern的距离-\(d\)邻域也与每个bag有小的交集,从而能处理更广泛的问题。
Yury Makarychev
cs.DS
本文提出了一种用于设计ordering CSPs近似算法的通用框架, 该框架通过松弛、求解和随机变换来构造解. 作者证明了该框架的能力可由一类称为strong IDU transformations的结构化变换所刻画, 并给出了基于此的优化算法.

others

Adrian Zhao et al.
cs.DC cs.LG
本文提出了CRAFT, 一个用于Mixture-of-Experts (MoE) 模型推理服务的专家副本分配框架. 该框架通过细粒度的层间收益估计, 在给定内存预算下优化副本分配以最大化负载均衡, 从而提升服务吞吐量.
Subhadip Mitra
cs.DC cs.CL cs.LG
本文介绍了一个基于Apache Spark构建的分布式评估框架Spark-LLM-Eval,旨在解决大规模语言模型评估中的计算瓶颈和统计严谨性问题。该框架通过数据并行处理、置信区间计算和响应缓存来提升评估效率和可靠性。
Paulo Vitor S. Silva et al.
cs.HC cs.AI cs.MM
本文介绍了一个名为Focus360的系统, 旨在通过引导用户在360度VR视频中的注意力来提升参与度. 该系统利用自然语言描述识别关键场景元素, 并应用视觉效果来无缝引导用户注意力.
Rongjun Dong et al.
cs.CV cs.AI cs.LG
本文提出了一种用于生物材料微观形貌设计的结构感知条件生成对抗网络DF-ACBlurGAN. 该方法通过整合频域重复尺度估计等技术, 旨在生成具有内部重复和周期性结构的图像, 以解决传统方法在全局结构一致性控制上的不足.
Chengxi Li et al.
cs.DC cs.AI
本文提出了一种基于cyclic gradient coding的分布式训练方法LAD及其通信高效变体Com-LAD, 以应对拜占庭攻击和通信约束. 该方法通过冗余计算分配和编码梯度来提升鲁棒性, 并在数据异构场景下降低了解决方案误差.
Michael Bidollahkhani, Freja Nordsiek, Julian M. Kunkel
cs.DC cs.LG
本文提出了一种结合GPU数值遥测与监控管道结构指标的预警框架, 用于检测GPU的"静默失效". 该框架在真实生产数据上进行了评估, 结果表明联合建模能比仅使用GPU指标提供更早的预警.
Parvin Ghaffarzadeh et al.
eess.SP cs.AI
本文发布了一个用于从消费级Apple Watch传感器估计垂直地面反作用力的多模态数据集, 包含492个经过验证的试验, 提供了对齐的IMU数据和测力台地面真值. 该数据集支持可重复的生物力学研究和机器学习模型基准测试.
John Paul P. Miranda et al.
cs.CY cs.AI stat.AP
本文通过问卷调查分析了菲律宾高校实习生在实习期间使用AI工具的情况. 研究发现实习生主要将AI工具用于生产力、沟通、技术支持和独立完成任务等目的, 并表现出适度的使用信心和选择性.
Yongzhi Huang
eess.SP cs.AI cs.CE cs.DC cs.HC +1
本文提出了一种基于智能手机主动振动传感的液体识别方法. 该方法通过信号处理技术克服了内置加速度计采样不足等问题, 实现了对液体粘度的估计和多种液体的区分.
Faraz Shaikh, Gianluca Reali, Mauro Femminella
cs.DC cs.LG
本文提出了一种结合Attention机制与Double-Stacked LSTM的框架,用于改进Kubernetes在边缘计算环境中的自动扩缩容性能。该方法旨在解决传统方法因时间盲区导致的延迟和资源抖动问题。
Azam Nouri
cs.OS cs.AI cs.CL cs.DC
本文提出了一种名为 StepCache 的、与后端无关的步骤级重用层,用于优化具有重复结构但局部约束不同的 LLM 服务请求。它通过将输出分段、检索最佳匹配缓存、进行轻量级验证并选择性修补失败区域来减少延迟和令牌使用,并在数学和 JSON 任务上展示了性能提升。
Curie Kim et al.
cs.LO cs.AI
本文提出了一种名为GaloisSAT的新型混合GPU-CPU SAT求解器。它将基于GPU的可微分求解引擎与传统的CPU上的CDCL求解阶段相结合,在SAT竞赛基准测试中相比现有先进求解器取得了显著的性能提升。
Joy Acharya et al.
cs.CR cs.AI
本文提出了一种基于电阻-电容(RC)的动态可重构物理不可克隆函数(PUF)设计, 旨在增强物联网(IoT)设备认证的安全性以抵抗机器学习(ML)和深度学习(DL)建模攻击. 通过使用32位挑战-响应对(CRPs)并进行系统评估, 实验表明多种ML模型在测试集上的准确率接近随机猜测, 证明了该PUF设计对建模攻击的有效抵抗能力.
Gaia Nicosia, Andrea Pacifici, Ulrich Pferschy
cs.GT cs.DM cs.DS cs.MA
本文研究了一类新的多智能体单机调度问题, 其中每个作业对应一个具有效用函数的自利智能体. 作者旨在通过最大化所有智能体中的最小效用来实现公平解, 并分析了该问题的计算复杂性, 为多种变体提出了求解方法.
Jiaqi Tan et al.
cs.RO cs.AI cs.MA
本文提出了CREST框架, 用于解决多机器人仓库货架重排问题中的执行效率问题. 该框架通过在执行过程中主动释放轨迹约束, 减少了agent的空闲时间和不必要的货架切换, 从而提升了整体执行质量.
Carlos Cardona-Giraldo et al.
physics.ins-det cs.LG hep-ex nucl-ex
本文提出了一种基于next-token transformer和Mixture-of-Experts预训练的可推广量能器基础模型。该模型通过参数高效微调策略,实现了跨材料、粒子种类和探测器配置的模块化适应,避免了灾难性遗忘,为高能物理实验中的探测器模拟提供了一种计算高效的生成方法。
Yibo Wang et al.
cs.DB cs.AI cs.LG
本文提出了一种名为WAter的数据库参数调优系统, 通过将调优过程划分为多个时间片并在每个片中仅评估工作负载的一小部分查询子集来显著降低调优时间. 系统利用运行时分析动态选择更具代表性的查询子集进行评估, 最终在原始工作负载上验证最有希望的配置, 实验表明其能以更低的成本找到接近最优的配置.
Davi Rodrigues et al.
cond-mat.mtrl-sci cond-mat.mes-hall cs.LG
本文利用卷积神经网络分析磁泡畴图像,以数据驱动的方式估计界面Dzyaloshinskii-Moriya相互作用强度。该方法对样品不均匀性、噪声和低空间分辨率具有鲁棒性,并能推广到训练区间之外的DMI值预测。
Ramtin Zargari Marandi
cs.MA cs.AI
本文通过一个受控的宏观经济案例研究,比较了三种多智能体辩论协议与一个无交互基线。研究发现,协议设计在促进交互(同行引用率)与达成共识(收敛速度)之间存在权衡。当优先考虑共识时,新提出的Rank-Adaptive Cross-Round协议表现最佳。
Leye Wang, Zixing Wang, Anjie Xu
cs.CR cs.AI
本文介绍了SkillTester,一个用于评估智能体技能效用与安全性的工具。它通过对比基准测试和安全性探针来生成标准化评分。
Joonhyung Bae
cs.DL cs.AI
本文提出了一种名为ARTLAS的计算方法, 用于分析艺术-技术机构的生态. 该方法结合了一个包含八个维度的概念框架与文本嵌入和聚类技术, 将78个机构映射到一个统一的分析空间中, 并开发了一个交互式可视化工具供用户探索.
Md Jueal Mia et al.
cs.CR cs.AI
本文提出了一种针对小型语言模型(SLM)的轻量级防御方法GUARD-SLM. 该方法基于对模型内部表征空间的分析, 通过token激活模式来过滤恶意提示, 旨在提升SLM部署的安全性.
Yi Liu
cs.PF cs.AI
本文研究了在消费级GPU上, 给定固定训练时间预算(从5分钟到24小时)下的最优模型规模选择问题. 研究发现, 在时间约束下, 最优模型规模与时间的关系为\(N^* \propto t^{0.60}\), 不同于基于计算量(FLOPs)的Chinchilla缩放律, 并揭示了由计算瓶颈和数据瓶颈(过拟合)导致的双U形曲线机制.
He Yang et al.
cs.CR cs.AI
本文提出了一种针对基于分布匹配的数据集压缩方法的隐蔽后门攻击方案. 该方案通过利用类别决策边界的固有脆弱性, 并结合一个生成模块来构建与局部特征几何对齐的输入感知触发器, 从而在保持攻击成功率的同时, 显著提升了攻击在视觉和统计层面的隐蔽性.
Ari Ercole
cs.GT cs.AI
本文从博弈论视角分析了医疗AI的局限性, 提出了三种AI技术原型, 并通过一个简化的住院容量信号博弈模型论证了仅优化任务而不改变激励难以改变系统结果. 文章强调了重塑风险分配的干预措施的重要性, 并对医疗领导与采购提出了建议.
Ziyu Mu, Xiyu Shi, Safak Dogan
cs.CR cs.AI
本文提出了一种名为GMA-SAWGAN-GP的生成式数据增强框架,旨在提升入侵检测系统(IDS)的性能。该框架结合了自注意力机制、Gumbel-Softmax正则化等技术来生成混合类型的网络流量数据。实验表明,使用该框架增强的数据集能有效提高多种IDS模型对已知和未知攻击的检测准确率与鲁棒性。
Tianran Liu et al.
cs.CV cs.AI cs.RO
本文提出了一种基于occupancy world model的自动驾驶仿真器OccSim, 它仅需单帧初始输入和未来自车动作序列, 即可生成长达数公里的连续3D occupancy仿真序列, 突破了以往方法对预记录数据或高精地图的依赖. 实验表明, 其生成的数据可用于预训练4D语义occupancy预测模型, 并在未见数据上取得显著的zero-shot性能提升.
Alex Zongo et al.
cs.RO cs.AI cs.LG eess.SY
本文针对小型无人机系统在GPS信号退化与欺骗下的鲁棒分离保障问题, 提出了一种基于多智能体强化学习的方法. 通过将状态观测扰动建模为零和博弈并推导出闭式对抗扰动表达式, 该方法避免了对抗训练, 并在高密度模拟中实现了低碰撞率.
Tushar Sial, Abhishek Halder
math.OC cs.LG eess.SY stat.ML
本文研究了在正定矩阵锥上对称化由一般镜像映射诱导的Bregman散度的变分原理。结果表明,对于正向对称化,算术平均是典范的;而对于反向对称化,典范平均是定义在对偶空间上的算术平均拉回到原空间。
Guillaume Chapuy, Guillem Perarnau
math.PR cs.DS math.CO math.NT math.ST
本文研究了由两个随机函数复合生成的随机函数的性质, 探讨了仅通过观察一个样本能否恢复出复合所用的未知单词\(w\)的问题. 结果表明, 单词的长度和指数可以高概率恢复, 并且在一定条件下, 不同单词对应的随机函数在总变差距离上是可区分的.
Marcell Bartos et al.
eess.SY cs.LG math.OC
本文提出了一种名为IR-LQR的乐观在线LQR算法,通过引入内在奖励和方差正则化来鼓励探索。该方法仅修改成本函数,保持了标准LQR问题的结构,计算简单高效。理论分析表明其达到了最优的\(\sqrt{T}\)后悔率,并在数值实验中验证了性能。
Gil Kur, Pierre Bizeul
math.FA cs.LG math.MG math.PR math.ST
本文研究了在\(2\)-uniform convexity假设下的minimum-norm interpolator (MNI), 并给出了其在过参数化线性与非线性模型中的偏差上界. 在协变量满足各向同性等特定条件下, 该上界对于\(\ell_p\)-MNI (\(p \in \bigl(1 + C/\log d, 2\bigr]\)) 是尖锐的.
Mozhgan Pourkeshavatz, Tianran Liu, Nicholas Rhinehart
cs.RO cs.AI cs.CV cs.LG
本文提出了一个名为AutoWorld的交通仿真框架, 它利用从无标签LiDAR数据中学到的world model来生成多智能体运动. 该方法通过级联Determinantal Point Process来提升采样多样性, 并在WOSAC基准测试中取得了领先的真实性评分.
Chengyang Gu et al.
eess.SY cs.LG
本文提出了一种基于Pontryagin最大值原理的模型强化学习方法HAC, 通过直接优化Hamiltonian来避免显式的价值函数学习. 该方法在连续控制任务中表现出优于基线方法的性能与样本效率.
Alessio Langiu
cs.CR cs.AI
本文提出了一种结合本地隐私保护与token节约的LLM路由框架. 该框架通过一个本地的小语言模型对用户提示进行抽象总结和自动优化, 将高风险查询重定向到受保护的模型, 从而在降低运营成本的同时实现零数据泄露. 实验表明该方法能有效减少token消耗并保护隐私.
Yicheng Cai et al.
cs.CR cs.AI
本文提出了构建评估AI系统蓝队能力基准SOC-bench的设计原则,并给出了一个包含五个大规模勒索软件攻击响应任务的概念设计。该工作旨在填补当前缺乏系统性评估协调多任务蓝队AI基准的空白。
Ali Tfaily et al.
math.OC cs.LG stat.ML
本文提出了一种在约束贝叶斯优化框架中集成基于迁移学习的代理模型集成方法, 用于解决飞机设计中的冷启动问题. 该方法通过偏最小二乘降维处理设计变量异质性, 并通过元数据代理选择处理约束异质性, 在数值基准和飞机概念设计问题中展示了早期收敛的显著改进.
Zifan He et al.
cs.DC cs.AI
本文提出将大语言模型(LLM)推理中的多种长上下文优化技术(如稀疏注意力, RAG)统一为一个四步内存处理流水线. 通过分析其计算异构性, 作者论证了异构系统(GPU-FPGA)加速该流水线的可行性, 并在实际硬件上验证了其在速度和能效上的提升.
Bharath Krishnamurthy, Ajita Rattani
cs.CV cs.AI
本文提出了一种用于高保真多模态人脸生成的双流扩散Transformer模型MMFace-DiT. 该模型通过一个新颖的双流Transformer块并行处理空间和语义信息, 并使用共享的RoPE注意力机制进行深度融合, 在视觉保真度和提示对齐方面取得了显著提升.
Bilgehan Sel et al.
cs.CR cs.AI cs.CL
本文提出了一种名为Trojan-Speak的对抗性微调方法, 用于规避Anthropic的Constitutional Classifiers. 该方法结合了课程学习和基于GRPO的混合强化学习, 在保持模型推理能力的同时, 实现了对内容分类器的高效绕过.
Arjun Sharma, Jonas A. Actor, Peter A. Bosler
physics.flu-dyn cs.LG
本文提出了一种数据驱动的框架, 通过融合面元法(panel method)的高保真数据来扩展经典升力线理论(LLT)的预测范围. 该方法使用了一个包含卷积层和全连接层的神经网络架构, 能够有效学习对LLT输出的修正, 在低展弦比、大后掠角等LLT失效的工况下准确预测展向升力和阻力分布, 同时保持了LLT的计算效率.
KrishnaSaiReddy Patil
cs.CR cs.AI
本文提出了一个名为CivicShield的跨域纵深防御框架,旨在保护面向政府的AI聊天机器人免受多轮对抗攻击。该框架整合了来自多个领域的理念,构建了七层防御机制,并通过理论分析和模拟实验验证了其有效性。
Matthew Loftus
cond-mat.stat-mech cs.LG math.AT
本文通过引入一种称为\(f_{\text{topo}}\)的定量分解方法,分析了在经典自旋模型相变检测中持久同源性(PH)信号的性质。研究发现,\(H_0\)统计量几乎完全由密度驱动,而\(H_1\)统计量则包含显著的拓扑成分,其拓扑部分随系统尺寸标度变化。
Rhea Chowers et al.
cs.CV cs.LG
本文从robustness的角度探讨了multi-modal模型中普遍存在的modality gap现象. 作者通过理论分析表明, 在特定条件下, 最小化contrastive loss会导致一个与embedding正交的全局gap vector, 并且这个gap与模型的鲁棒性单调相关. 实验表明, 通过简单的后处理减小gap可以在不损失clean accuracy的情况下显著提升模型对embedding扰动的鲁棒性.
Fabian Gloeckle et al.
cs.SE cs.AI
本文提出了一个名为WybeCoder的智能代码验证框架,它结合了自动验证条件生成、SMT求解器和交互式证明,实现了代码、不变量和证明的协同生成与验证。该系统在将函数式验证基准转换为命令式代码规范后,在复杂算法验证任务上取得了显著的性能提升。
Amogh Joshi, Julian Ost, Felix Heide
cs.CV cs.AI cs.GR
本文提出了一种名为WorldFlow3D的新方法,用于生成无界3D世界。该方法基于flow matching技术,将3D生成建模为在数据分布间流动的过程,并支持通过布局和属性进行场景控制。
Qianru Lyu et al.
cs.HC cs.AI
本文应用数据驱动的方法对中学数学智能辅导系统进行了重新设计, 并在课堂研究中评估了其效果. 研究发现, 重新设计的系统在提升学习效率和学习内容掌握度方面表现出积极影响.
Zhaorui Yang et al.
cs.SE cs.AI
本文提出了一种基于结构化语义基础的故障定位框架 SemLoc, 它将自由形式的 LLM 推理转换为封闭的中间表示, 从而能够进行运行时检查和归因. 该方法在包含语义错误的程序数据集上评估, 表现优于多种基线方法.
Yuqing Xiao et al.
cs.SE cs.AI
本文通过混合方法研究, 结合可解释机器学习与半结构化访谈, 识别了影响老年数字健康领域需求优先级的关键人为因素, 并揭示了不同利益相关者群体间的认知差异. 研究提出了一个以人为本、结合定量与定性分析的需求工程框架.
Luke Bhan, Miroslav Krstic, Yuanyuan Shi
eess.SY cs.LG math.OC
本文针对具有时变输入和测量延迟的线性系统, 提出了基于预测器的输出反馈控制方法. 通过数值积分或神经网络算子来近似预测时域, 并证明了在近似误差足够小时闭环系统的全局指数稳定性.
Kanak Gautam, Poorvi Bhatia, Parmit K. Chilana
cs.HC cs.AI
本文通过一项观察性研究, 探讨了用户在使用基于prompt的生成式AI工具进行3D建模时的学习与求助行为. 研究发现, 无论是普通用户还是专业用户, 都倾向于跳过传统教程, 而prompt输入框本身成为了新的学习入口, 并且求助方式也发生了变化.
Luke Bhan et al.
eess.SY cs.LG math.OC
本文针对具有输入延迟和采样状态测量的非线性控制系统, 提出了两种基于神经算子(neural operator)的预测器-反馈设计. 第一种设计引入了采样区间预测算子, 第二种则仅近似延迟补偿预测器, 两者均在数值实验中展示了计算加速效果.
Wensu Li et al.
econ.GN cs.AI cs.CY
本文提出了一个评估任务自动化最优程度的统一框架, 将自动化强度建模为连续选择. 通过结合AI生产函数和基于熵的任务复杂度度量, 框架分析了从部分人机协作到完全自动化的成本效益. 校准结果表明, 对于高复杂度任务, 部分自动化通常是成本最小化的均衡结果.
Yi Wei, Xufeng Cai, Jelena Diakonikolas
math.OC cs.LG
本文提出了一种用于求解单调Lipschitz算子Minty变分不等式的自适应延迟更新循环算法ADUCA. 该算法无需参数调优, 并具有与最优复杂度匹配的理论保证.
Omer Nguena Timo, Paul-Alexis Rodriguez, Florent Avellaneda
cs.SE cs.AI cs.CL cs.FL
本文提出了一个基于GPT-4.0的框架,用于从自然语言需求自动生成有限状态机(FSM)规范。该框架还结合了基于变异和测试生成的专家中心方法来修复LLM生成的FSM,并通过实验评估了其性能。
Haihong Hao et al.
cs.CV cs.AI cs.RO
本文提出了一种新的视觉与语言导航(VLN)范式LatentPilot, 它通过一种飞轮式训练机制, 在训练中利用未来观测来学习动作条件化的视觉动态, 而无需在推理时访问未来帧. 该方法在多个VLN基准测试中取得了新的最优结果.
Chang Sun et al.
cs.CV cs.LG
本文提出了一种改进的MedSAM模型, 用于从脑部MRI数据中分割灰质和白质. 该方法通过预处理流程生成多类别标签, 并微调模型的分割解码器, 在IXI数据集上取得了较高的Dice分数.
Siyuan Du et al.
q-bio.NC cs.AI cs.CE cs.CV
本文提出了一种基于预训练-微调框架的生成式虚拟脑模型, 用于从静息态fMRI数据预测帕金森病患者对神经调控疗法(如时间干涉和脑深部电刺激)的临床反应. 该模型通过构建个体化病理与健康状态的对比估计来预测疗效, 并在外部验证中显示出临床转化的潜力.
Ryosuke Matsuda et al.
cs.CV cs.AI
本文提出了一个用于评估文本到长视频生成系统评测工具性能的合成基准 SLVMEval. 该基准通过人工筛选出易于人类判断的视频质量对比对, 并测试了现有评估系统在这些长视频上的表现, 发现其在多数方面不及人类评估者.
Sunil Tiwari, Payal Fofadiya, Vicky Vishwakarma
cs.CV cs.AI
本文提出了一种从正交视图自动重建三维模型的方法. 该方法通过Harris角点检测器获取控制点, 构建垂直投影包络并通过其交点生成三维点云, 最后利用计算几何和OpenGL进行表面重建与渲染.
Payal Fofadiya, Sunil Tiwari
cs.CV cs.AI
本文提出了一种用于大型语言模型长程交互的自适应上下文压缩框架. 该方法通过重要性感知的记忆选择与动态预算分配来控制上下文增长, 在多个基准测试上提升了对话稳定性与检索性能.
Sunil Tiwari, Payal Fofadiya
cs.CV cs.AI
本文提出了一种用于LLM Agent的多层记忆架构, 通过将对话历史分解为工作记忆、情景记忆和语义记忆层, 并结合自适应检索门控与保留正则化, 旨在控制跨会话的语义漂移并维持有界的上下文增长. 实验在多个数据集上验证了该方法在长期上下文保留和推理稳定性方面的提升.
Miles Farmer et al.
cs.SE cs.AI cs.CR cs.LG
本文提出了一种基于轻量级图神经网络(GNN)的漏洞检测模型VulGNN. 该模型利用代码的图结构关系, 在性能接近大型语言模型(LLM)的同时, 显著降低了模型规模和计算需求.
Lukuang Dong et al.
eess.AS cs.CL cs.SD
本文研究了基于LLM的多语言音素到字素转换, 用于多语言语音识别. 通过引入S-SKM等鲁棒训练策略并处理数据不平衡, 在CV-Lang10基准上显著降低了词错误率.
Tao Chen et al.
cs.CV cs.AI
本文提出了一种名为FlexMem的训练无关方法, 通过模拟人类观看视频时的视觉记忆机制来处理长视频理解任务. 该方法利用视觉KV缓存作为记忆源, 通过双路径压缩设计实现记忆的有效转移与写入, 并探索了针对不同视频理解任务的记忆读取策略, 从而突破了模型输入长度的限制.
Osasumwen Cedric Ogiesoba-Eguakun, Kaveh Ashenayi, Suman Rath
eess.SY cs.LG
本文提出了一种结合CNN和LightGBM的数据驱动代理模型框架,用于快速预测基于逆变器的微电网的瞬态行为。该模型在多种运行和扰动场景的数据集上进行训练,能够以远高于传统电磁瞬态仿真的速度,对电压、频率等关键系统变量进行预测。
Jingqi Xu
cs.CV cs.AI
本文提出了一种名为 Omni-NegCLIP 的微调方法,旨在提升 CLIP 模型对否定表达的理解能力。该方法通过设计特定的对比学习目标,并重点微调文本编码器的前部 transformer 层,在保持通用检索性能的同时,显著改善了模型在两类否定任务上的表现。
Amirreza Rouhi et al.
cs.CV cs.AI cs.RO
本文介绍了PRISM, 一个用于在零售环境中微调具身视觉语言模型(VLM)的大规模多视角视频数据集. 该数据集基于一个三维知识本体构建, 旨在提升模型在空间感知, 物理常识和具身推理等方面的能力.
Atharva Naik et al.
cs.CY cs.AI cs.CL cs.HC cs.SI
本文通过实验评估了多种LLM在婚恋匹配场景中表现出的种姓偏见. 研究发现, LLM的评估结果系统地复制了现实中的种姓等级结构.
Akhil Gupta Chigullapally et al.
cs.CR cs.AI cs.DC
本文讨论了现代工业中人工智能在边缘-云连续体上部署时带来的潜在风险与挑战. 文章重点分析了从软件层(传统AI与生成式AI)到基础设施层(工业物联网与边缘-云连续体)可能存在的安全漏洞、网络威胁和意外副作用.
Guozhi Qiu et al.
cs.CV cs.AI
本文提出了一种名为MELT的网络,用于改进组合图像检索(CIR)。该方法通过关注稀有修改语义并对困难负样本进行去噪,以缓解现有方法中的频率偏差和相似度估计干扰问题。
Huan Zhang, Wei Cheng, Wei Hu
cs.SE cs.AI cs.PL
本文提出了一种名为ConSelf的自改进方法, 用于提升大语言模型的代码生成能力. 该方法通过代码语义熵进行课程构建, 并利用基于行为共识的偏好优化进行微调, 从而在不依赖外部监督资源的情况下实现自我提升.
Yingke Wang et al.
cs.RO cs.AI
本文提出了一种结合学习到的像素动态模型与基于模型的规划方法, 用于机器人油画复现. 该系统通过自学习预测画布变化并规划笔触轨迹, 在复现精度上优于基线方法.
Daniel Williams
cs.SD cs.AI
本文提出了一种基于sigmoid驱动的理想比率掩码(Ideal Ratio Masking)和谱损失(spectral loss)的实时人声去噪方法. 该方法采用频带分组编码器-解码器架构, 结合频率注意力机制, 实现了低于10毫秒的总延迟, 并在平稳和非平稳噪声上提升了语音质量感知评估(PESQ-WB)分数.
Kavindu Herath, Joshua Zhao, Saurabh Bagchi
cs.CR cs.AI cs.CV cs.DC cs.LG
本文提出了一种在联邦学习中更现实的语义感知后门攻击方法SABLE, 该方法使用语义一致的触发器(如添加太阳镜)并优化聚合感知的恶意目标. 实验表明, 这种基于语义的后门攻击在多种聚合规则下仍能保持高成功率, 揭示了仅基于合成补丁触发器评估鲁棒性的局限性.
Yunyue Wei et al.
cs.RO cs.AI
本文提出了一个用于全身人体运动复现的大规模并行肌肉骨骼计算框架. 该框架结合了并行GPU模拟与对抗性奖励聚合等方法, 旨在解决高维肌肉骨骼控制中的优化难题.
Kyeonghun Kim et al.
cs.CV cs.AI
本文提出了一种名为CIPHER的深度伪造检测框架,通过重用和微调图像生成模型的判别器来提取生成无关的伪影特征。该方法在多种生成模型上展现了优越的跨模型检测性能,显著优于现有的基于ViT的检测器。
Enlai Li et al.
cs.AR cs.LG
本文提出了一个名为AP-DRL的自动任务划分框架,用于加速深度强化学习(DRL)的训练。该框架利用AMD Versal ACAP的异构计算架构,通过设计空间探索和整数线性规划模型,将不同计算特性的操作分配到CPU、FPGA或AI Engine等最优计算单元上,并协调使用FP32、FP16和BF16混合精度以维持训练收敛性。实验表明,该框架相比基准方案能获得显著的加速效果。
Kok Ping Lim, Dongyang Jia, Iftekhar Salam
cs.CR cs.LG
本文探讨了深度学习辅助的差分故障攻击在轻量级流密码ACORNv3, MORUSv2和ATOM上的应用。在未知位置单比特翻转的宽松故障模型下,使用多层感知机(MLP)定位故障,并引入基于阈值的方法优化密钥恢复所需的故障注入次数。
Jianpeng Wang et al.
cs.CV cs.AI
本文提出了一个用于定位基于提示的AI图像伪造的大型数据集PromptForge-350k和一个对比学习框架ICL-Net. 该方法通过自动标注框架生成精确的ground-truth masks, 并利用triple-stream backbone和intra-image contrastive learning来学习鲁棒的取证特征, 在多个指标上超越了现有方法.
Seungwoo Yoon, Jinmo Kim, Jaesik Park
cs.CV cs.AI
本文提出了一种免训练的从单张图像生成大规模3D场景的流程Extend3D. 该方法通过扩展潜在空间并分块处理, 结合深度先验和优化目标, 实现了优于先前方法的结果.
Aiman Almasoud et al.
cs.CR cs.AI
本文对LLM-as-a-Judge (LaaJ) 系统的安全性进行了首次系统化知识梳理(SoK). 通过分析大量文献, 提出了一个涵盖攻击、防御和应用场景的分类法, 并指出了该领域当前存在的漏洞和未来的研究方向.
Wei Suo et al.
cs.CV cs.AI
本文提出了一种在大型视觉语言模型中动态检测并编辑幻觉中间表示的框架. 该方法以最小的额外计算成本, 在现有基准上实现了先进的性能, 有效缓解了模型输出与视觉事实不符的问题.
Yubo Cui et al.
cs.CV cs.AI cs.LG
本文提出了一种名为AGFT的微调框架, 旨在提升预训练视觉-语言模型(VLMs)的零样本对抗鲁棒性. 该方法通过利用模型自身的概率预测进行文本引导的对抗训练, 并引入分布一致性校准机制, 在增强鲁棒性的同时保持了跨模态语义对齐.
Meiwen Ding et al.
cs.CV cs.AI
本文提出了一种针对多模态大语言模型(MLLMs)的不可感知视觉提示注入攻击方法. 该方法通过有界文本覆盖和迭代优化视觉扰动, 将恶意指令嵌入输入图像, 并在多个闭源MLLMs上验证了其有效性.
Qiyuan Zhuang et al.
cs.RO cs.AI cs.CV
本文提出了一种结合检索与对齐学习的物体可供性预测框架RAAP. 该方法通过解耦静态接触点定位与动态动作方向预测, 利用稠密对应关系迁移接触点, 并借助检索增强的对齐模型整合多参考信息来预测动作方向. 在少量样本训练下, 该框架在未见过的物体和类别上表现一致, 并能实现零样本机器人操作.
Jiaao Ma et al.
cs.NI cs.LG
本文提出了一种用于多自主水下航行器(AUV)协同目标跟踪的层次化多智能体强化学习(MARL)架构及SDA-MARL算法。该算法通过分层结构、分离的经验池、监督引导的扩散模型生成样本以及结合行为克隆的鲁棒策略学习,旨在解决非平稳性、稀疏奖励和水动力干扰等挑战,并在仿真中取得了优于现有方法的跟踪精度。
Tillmann Miltzow
cs.CC cs.CG cs.DS
本文是一篇关于实数计算(real computation)的入门性综述, 旨在为非专业读者提供一个轻量级且易于理解的概念介绍. 它避开了追求完整性, 而是选择了一组适合课堂教学的结果, 侧重于核心技术和直觉理解, 并讨论了与现代复杂性理论的联系.
Youngung Han et al.
cs.CV cs.AI
本文提出了一种名为NeoNet的端到端3D深度学习框架, 用于从MRI图像中无创预测胆管癌的神经周围浸润(PNI). 该框架整合了分割、生成和分类模块, 通过生成合成数据平衡数据集, 并利用专门的注意力机制进行最终预测, 在交叉验证中取得了优于基线模型的性能.
Tom Simon et al.
cs.CV cs.AI
本文提出了一种基于multimodal in-context learning的手写文本识别框架, 可在推理时仅使用少量目标书写者的样本进行writer adaptation, 而无需更新模型参数. 实验表明, 该方法在IAM和RIMES数据集上取得了优于writer-independent模型的性能.
Xudong Zhou et al.
cs.HC cs.AI
本文提出了一个名为iPoster的交互式海报布局生成框架。该框架允许用户通过指定元素类别、大小或位置等约束来引导生成过程,并采用一种基于图增强的diffusion模型来生成符合约束的精细化布局。
Philipp Reis et al.
eess.SY cs.LG
本文提出了"Fast Data"的概念, 用于汽车系统工程中的数据收集. 该方法将数据选择与记录移至车辆端, 通过实时、上下文感知的决策来提升数据集的相关性和信息密度, 同时减少无关数据.
Teruki Kato, Koshi Oishi, Seigo Ito
eess.SY cs.LG cs.RO math.OC
本文提出了一种结合Model Predictive Path Integral (MPPI)控制与PID控制的新方法,称为MPPI-PID控制。该方法通过在每个控制步骤优化PID增益,而非直接优化高维控制序列,以提高采样效率并产生更平滑的控制输入。实验在一个基于学习的迷你叉车路径跟踪任务上验证了该方法的有效性。
Qing He, Xiaowei Fu, Lei Zhang
cs.CR cs.AI cs.MM cs.NI
本文提出了一种名为TrafficMoE的加密流量分类框架, 它采用了一种解耦-过滤-聚合(DFA)的范式. 该框架通过双分支稀疏专家混合(MoE)来处理流量中的结构化头部和随机化载荷, 并引入了不确定性感知过滤和动态路由聚合机制, 在多个数据集上取得了优于现有方法的效果.
L. Ghiringhelli, A. Zambon, G. Tiana
cond-mat.dis-nn cs.LG q-bio.BM
本文利用统计力学框架和Langevin动力学采样研究了基于蛋白质序列数据训练的transformer模型的参数空间. 研究发现, 与feedforward网络不同, transformer的loss变化不存在类似一阶相变的行为, 这导致了一个具有良好学习特性的中间温度区间.
E. Javier Olucha et al.
eess.SY cs.LG
本文提出了一种用于联合估计LPV状态空间模型及其调度变量的贝叶斯方法,并量化了模型的不确定性。该方法同时考虑了测量噪声和有限数据带来的不确定性,能够直接从输入输出数据中提供模型响应的置信区间。
Sowmya Vajrala et al.
cs.CV cs.AI
本文提出了一种用于在边缘设备上部署多任务生成式视觉模型的统一框架, 核心是将LoRA权重视为运行时输入而非编译进模型图, 并引入了QUAD量化感知训练策略来对齐多个LoRA适配器. 该方法在多个芯片组上实现了内存占用和延迟的显著降低, 同时保持了视觉质量.
Xiao Liu et al.
cs.CR cs.AI cs.MM cs.NI
本文提出了一种用于加密流量分类的Mean Masked Autoencoder (MMAE)方法。该方法通过师生自蒸馏机制和流混合策略,旨在学习多粒度上下文表示,并在多个数据集上取得了先进的性能。
Zhijie Tang, Albert Nieto-Morales, Arit Kumar Bishwas
quant-ph cs.AI
本文针对列车装载优化问题, 提出了一种新的紧凑数学模型. 该模型通过目标函数隐式计算翻箱成本, 避免了传统方法中大量显式变量和约束的使用, 从而显著降低了模型规模. 通过模拟退火算法验证, 该模型能有效找到高质量的装载方案.
Jagadish Kashinath Kamble et al.
cs.CV cs.AI
本文提出了一种结合姿态估计的生成框架, 用于合成印度古典舞蹈Bharatanatyam的关键姿势. 该方法通过引入基于关键点的损失和姿态一致性约束来提升生成结果的解剖学准确性和风格完整性.
Yuanbin Man et al.
cs.GR cs.AI cs.CV
本文提出了一个名为Turbo4DGen的加速框架,用于解决基于扩散模型的4D内容生成中计算和内存开销巨大的问题。该方法通过引入时空缓存、动态语义感知注意力剪枝等技术,显著提升了生成速度。
Yanjia Huang et al.
cs.GR cs.AI
本文提出了一种名为Learn2Fold的神经符号框架,用于从文本描述生成物理上有效的折纸折叠序列。该方法将折纸过程建模为对折痕图的条件程序归纳,通过大语言模型生成候选程序,并利用图结构世界模型进行物理可行性验证。
Zhuoling Li et al.
cs.GR cs.AI
本文提出了一个名为FigAgent的多智能体框架, 用于自动生成AI科学论文中的方法示意图(MIFs). 该框架通过智能体协作和探索-选择绘图策略来处理示意图的复杂性, 旨在模仿人类绘图过程以提高生成质量.
Fei Shen et al.
cs.GR cs.AI cs.CV cs.MA
本文提出了一个基于"规划-执行-反思"闭环机制的多轮图像编辑智能体框架IMAGAgent. 该框架通过约束感知规划模块分解指令, 利用工具链编排模块调度异构模型执行, 并采用多专家协作反思机制进行反馈与校正, 旨在解决多轮编辑中的错误累积和语义漂移问题.
Annika Betken, Giorgio Micali, Johannes Schmidt-Hieber
stat.ME cs.LG
本文研究了全卷积神经网络(FCN)在时间序列输入下的输出分布. 证明了当输入来自短程依赖线性过程时, 带有全局平均池化(GAP)的FCN输出是渐近高斯的, 并基于此理论提出了一种可学习的全局加权池化层.
Pegah Ramezani et al.
q-bio.NC cs.AI cs.CL
本文通过EEG实验和机器学习方法,研究了人脑在处理不同Argument Structure Constructions时的神经表征。研究发现,构造特异的神经信号主要在句子末尾出现,其时间动态和相似性结构与人工语言模型中的表征模式相似。
Sherif Abdelwahab
cs.CV cs.DC cs.IR
本文提出了一种用于边缘摄像头的流式检索架构, 通过一个新颖性过滤器在设备端保留语义新颖的帧以构建去噪的嵌入索引, 并结合跨模态适配器和云端重排序来提升检索性能. 该方法在多个视觉语言模型和数据集上验证了其优于离线过滤方案的效果.
Yang Shen et al.
cs.MA cs.AI
本文通过一个受控的测试平台,比较了单智能体与两种多智能体协作架构(子智能体模式和团队模式)在自动化机器学习优化任务中的性能。研究发现,子智能体模式在严格时间限制下具有高鲁棒性和吞吐量,而团队模式在充足计算预算下能实现更深度的理论对齐,但操作更脆弱。
Hengyu Zeng et al.
cs.CV cs.AI
本文提出了一种名为MacTok的连续图像tokenizer, 它结合了随机掩码和基于DINO的语义掩码来防止后验坍塌, 从而在高度压缩的1D潜在空间中学习鲁棒的表示. 该方法在ImageNet上实现了高效的图像生成, 显著减少了token的使用数量.
Brian Felipe Keith-Norambuena et al.
cs.HC cs.AI cs.CL cs.IR
本文通过用户研究评估了语义交互(SI)在叙事地图意义建构中的有效性. 研究比较了时间线基线、基础叙事地图和具备SI功能的交互式叙事地图三种条件, 发现地图类原型能产生更多见解, 其中SI条件表现最佳. 定性分析揭示了用户使用SI进行叙事修正的两种不同模式.
Jiao Chen et al.
cs.NI cs.AI
本文提出了一个名为6GAgentGym的交互式框架,用于6G网络管理的自主智能体训练。该框架通过合成闭环交互数据并结合强化学习,使开源模型在特定任务上取得了与大型模型相当的性能。
Zhenning Chen et al.
cs.HC cs.AI
本文介绍了一个名为KEditVis的可视化分析系统, 用于辅助理解和优化大型语言模型(LLM)的知识编辑过程. 该系统通过交互式可视化帮助用户选择编辑层、分析编辑失败原因, 并进行更有针对性的编辑.
Kuniko Paxton et al.
cs.CV cs.AI
本文评估了三种皮肤病变分割模型在两种公开数据集上的表现, 并引入了一种基于像素级ITA值分布的连续色素对比度分析方法. 研究发现, 病变与皮肤之间的低对比度是导致分割误差的关键因素, 而基于分布的度量比离散的肤色分类更能提供有效的评估信号.
Ren-Rui Liu et al.
stat.ML cs.LG
本文提出了一种处理无界密度比估计的三步方法, 并将其应用于协变量偏移适应. 该方法通过估计相对密度比、截断和反变换来构造重要性权重, 并为估计量建立了非渐近收敛保证.
Marc Becker et al.
stat.ML cs.LG
本文介绍了用于R语言的贝叶斯优化工具箱mlr3mbo, 它支持单目标与多目标优化等多种功能, 并提供了模块化设计以构建自定义算法. 通过基准测试表明, 该工具包在性能上可与当前主流优化器相媲美.
Edoardo Allegrini et al.
cs.SI cs.AI cs.MA
本文提出了一个名为BotVerse的、基于LLM的、可扩展的事件驱动框架, 用于高保真度的社交智能体模拟. 该框架通过异步编排API和模拟引擎, 在受控环境中模拟具有类人时间模式和认知记忆的agent交互, 为计算社会科学研究提供了一个安全的实验平台.
Yahia Salaheldin Shaaban et al.
eess.SY cs.LG
本文提出了两种基于神经网络的KKL观测器设计方法, 用于处理受外生输入影响的非自治非线性系统. 通过引入超网络框架和两种输入调节策略, 该方法在多个非线性基准系统上相比静态映射提升了估计精度.
Qiucheng Yu et al.
cs.CV cs.AI
本文提出了一个用于评估视觉语言模型在室内安全隐患评估任务中可信度的新基准TSHA. 该基准整合了多源数据并设计了更具挑战性的测试集, 实验表明现有模型在此任务上能力不足, 而使用TSHA数据训练能显著提升模型性能.
Ganen Sethupathy, Lalit Dumka, Jan Schagen
cs.CV cs.AI
本文设计并部署了一个用于公共安全的混合边缘动作检测系统, 结合了基于骨架的运动分析和视觉语言模型. 该系统在边缘设备上进行了演示评估, 比较了两种范式在延迟和资源使用上的权衡, 为实际部署提供了参考.
Andreas Bluhm et al.
quant-ph cs.CC cs.DS
本文研究了恒定\(k\)下的量子\(k\)-local Hamiltonians的认证与学习问题. 主要贡献包括: 在归一化Frobenius范数下, 以\(O(1/\varepsilon)\)演化时间实现了对Hamiltonian的认证; 设计了一个在迹范数下高效学习Gibbs states的算法; 并给出了一个在迹范数下高效认证Gibbs states的算法.
Minyoung E. Kim et al.
cs.CV cs.LG
本文介绍了CANVAS, 一个用于高分辨率全脑光片显微成像数据的基准数据集, 旨在解决该领域缺乏大规模标注数据和通用分析方法的挑战. 作者展示了现有模型在处理此类数据时面临的泛化性问题.
Yi Chen et al.
cs.RO cs.AI cs.CV cs.LG
本文提出了一个名为DIAL的框架, 用于端到端的Vision-Language-Action (VLA) 模型. 该框架通过一个可微分的潜在意图瓶颈来桥接高级决策与低级动作执行, 并在机器人操作任务上取得了优异性能.
Juan Rodriguez et al.
cs.GR cs.AI cs.CV
本文提出了一个名为VectorGym的综合性基准测试套件,用于评估Scalable Vector Graphics (SVG)的生成、编辑和理解任务。它包含多个由专家标注的任务,并引入了一种基于多任务强化学习的方法进行联合优化。
Samundra Karki, Adarsh Krishnamurthy, Baskar Ganapathysubramanian
cs.GR cs.AI cs.CV cs.LG
本文提出了一种名为GENIE的方法, 用于编辑Implicit Neural Representations (INRs)表示的几何形状. 该方法通过分析INR倒数第二层特征的Gram算子, 推导出闭式几何更新公式, 无需重新训练即可实现形状编辑.
Gustavo Delazeri, Marcus Ritt
cs.CE cs.AI
本文研究了基于图表示的景观上随时间分配灭火资源以减缓火灾蔓延的问题. 作者证明了该问题及其变体是NP-complete的, 并提出了一种新的mixed-integer programming (MIP) formulation, 同时引入了一个基于物理的实例生成器用于算法评估.
Levin Maier et al.
cs.DC cs.DB cs.LG math.OC
本文为ETL(Extract-Transform-Load)流程链开发了一个基于有向无环图和离散时间Markov过程的数学模型, 用于模拟资源分配与整体吞吐量之间的关系. 该模型结合了均值处理时间与重尾分布来描述随机性, 为基于学习和控制的资源分配提供了基础.
Xiao Ni et al.
cs.HC cs.AI
本文通过一项与阿里巴巴合作的大规模现场实验, 评估了生成式AI助手对电商售后客服人员工作绩效的影响. 研究发现, AI助手显著提升了服务速度, 并改善了主观服务质量, 但对客观服务质量无显著影响, 且效果因员工绩效水平而异.
Zichao Wang, Alexa Siu
cs.HC cs.AI
本文探讨了使用基于访谈信息构建的生成式智能体(agent)来模拟用户在概念测试场景中的反馈. 研究发现, 这类智能体能够近似群体层面的响应分布, 但无法精确复现特定个体的真实反应.
Subhabrata Mukherjee et al.
cs.HC cs.AI cs.CL cs.MA
本文介绍了一个用于医疗对话AI系统的生产验证框架, 该框架利用来自大量真实患者-AI交互的实时信号(如副语言特征, 话轮转换动态等)进行训练和评估, 以提升安全性, 可靠性和患者体验. 通过部署验证, 该系统在临床安全评分和减少语音识别错误方面取得了显著改进.
Mst. Fahmida Sultana Naznin et al.
cs.CV cs.CL
本文提出了一种用于放射学报告总结的多模态方法 ViTAS, 它通过选择性关注与病理相关的图像区域来减少视觉噪声. 该方法在 MIMIC-CXR 基准测试中取得了优于现有方法的结果, 表明更少但更相关的视觉输入对于总结任务更为有效.
Tomoki Mihara
math.NT cs.LG
本文提出了一种新的\(p\)-adic neural network框架,使用单射的\(p\)-adic character作为激活函数,替代了原有的基于一族特征函数的方法。作者证明了该框架的\(p\)-adic universal approximation theorem,并将其可行性归结为有限环上的多项式方程求解问题。
Luigi Altamura et al.
cs.AR cs.AI
本文提出了一种名为SISA的新型脉动阵列架构, 通过将传统的方形阵列划分为水平矩形块来提升GEMM操作的执行效率. 该设计特别针对LLM等负载中常见的小型或非方形矩阵, 在保持硬件规模不变的情况下实现了显著的性能提升和能耗降低.
Anirudh Raman et al.
cs.CV cs.AI
本文探讨了使用合成分形数据训练深度学习模型进行动态MRI重建的可行性. 研究通过模拟多线圈采集生成训练数据, 并与使用真实心脏MRI数据训练的模型进行对比, 结果表明两者在图像质量和临床测量指标上表现相当.
Raül Pérez-Gonzalo et al.
cs.CV cs.AI cs.LG
本文提出了一种用于风力涡轮机检测的端到端深度学习图像压缩框架, 该框架联合执行分割与双模式(有损/无损)压缩. 通过一个分割网络精确识别叶片区域(ROI), 并使用基于hyperprior的自编码器和扩展的bits-back编码器分别对ROI进行高质量有损压缩和完全无损重建, 同时高效压缩背景区域.
Balázs Pozsgay, István Vona
cond-mat.stat-mech cs.AI hep-th
本文探讨了使用大型语言模型(LLM)来执行数学物理中的特定计算任务, 即计算选定可积自旋链模型的坐标Bethe Ansatz解. 研究人员选择了三个未发表解的可积Hamiltonian, 其中两个是新的, 并观察到LLM能够半自主地完成任务, 尽管过程中出现了一些需要人工纠正的错误. 最终结果通过精确对角化和作者检查得到了验证.
Shasha Yu, Fiona Carroll, Barry L. Bentley
cs.CY cs.AI
本文通过问卷调查分析了高等教育中技术专业学生对AI风险的认知与采用意愿之间的关系. 研究发现, 学生的显性风险认知与场景化风险评估存在差距, 且风险感知与采用意愿呈负相关, 这为制定差异化的AI素养教育策略提供了依据.
Vanessa Emanuela Guarino et al.
cs.CV cs.LG
本文系统研究了图像分割不确定性量化中, 将像素级不确定性聚合为图像级分数的各种策略. 通过分析现有聚合方法的局限并引入考虑空间结构的新策略, 论文在多个数据集上评估了它们对分布外检测和故障检测等下游任务性能的影响, 发现利用空间结构的聚合器表现更优, 并最终提出了一个能整合多种聚合器的鲁棒元聚合器.
Xin Jin et al.
quant-ph cs.AI
本文提出了一个基于量子资源利用的四代量子生物医学传感器分类框架. 该框架从利用离散能级的第一代设备, 到利用量子相干性达到标准量子极限的第二代, 再到利用纠缠和自旋压缩接近海森堡极限精度的第三代, 最后定义了将量子传感与量子学习进行端到端集成的第四代. 文章分析了带宽匹配等关键参数, 并提出了从测量物理可观测量到提取结构化生物信息的路线图.
Xue Jiang et al.
cs.SE cs.LG
本文提出了一种名为Think-Anywhere的新推理机制,允许大型语言模型在代码生成的任意位置按需进行思考。该方法结合了冷启动训练和基于结果的强化学习,以自适应地分配推理努力。实验表明,该方法在多个代码生成基准测试上取得了先进的性能。
Iain Swift, JingHua Ye
cs.CV cs.AI
本文探讨了将FLAIR MRI作为第三模态整合到脑胶质瘤生存预测的深度学习框架中的可行性. 在TCGA-GBMLGG队列中, 三模态早期融合取得了探索性的最佳性能, 但受限于小样本量, 其相对于双模态基线的提升在统计上不显著.
Manuel Quintero et al.
stat.ME cs.LG econ.EM stat.ML
本文探讨了Oaxaca-Blinder分解中参考组选择对结论的影响。研究发现,参考组的选择可能导致实质不同的结论,但这种现象在真实数据分析中并不常见。
Gianluca Aguzzi et al.
cs.SE cs.AI cs.PL
本文介绍了 Phyelds, 一个用于 aggregate programming 的 Python 库. 它旨在通过提供 Pythonic 的 API 和与 Python 机器学习生态系统的集成, 来填补现有实现与数据科学实践者之间的鸿沟.
Derek Anderson et al.
cs.DC cs.AI
本文介绍了一个用于探测器设计优化的AI辅助工作流管理框架. 该框架将多目标贝叶斯优化与PanDA-iDDS工作流引擎集成, 以协调跨异构资源的迭代模拟, 并在EIC的ePIC和dRICH探测器研究中进行了演示.
Chong Xiang et al.
cs.CR cs.AI
本文讨论了针对AI agent中间接提示注入攻击的系统级防御策略。作者提出了三个核心观点,强调了动态重规划、受限的LLM安全决策以及人机交互的重要性。文章还指出了现有基准测试的局限性,并倡导通过系统级设计来整合规则与模型检查,以构建更安全的agent系统。
Md Saad, Sajjad Hussain, Mohd Suhaib
cs.RO cs.AI
本文提出了一种结合Reinforcement Learning (RL)和Large Language Models (LLMs)的混合框架,用于提升机器人操作任务。该框架利用LLM进行高层任务规划与自然语言理解,RL负责底层精确控制,并在仿真环境中验证了其在任务完成时间、准确性和适应性上的改进。
Izavan dos S. Correia, Henrique C. T. Santos, Tiago A. E. Ferreira
cs.SE cs.AI
本文提出了一种基于Transformer的源代码表示方法, 用于自动识别可并行化的循环. 该方法利用DistilBERT处理代码序列, 在合成与真实代码的数据集上取得了高准确率.

- 数据来源 Data Source: arXiv.org

- 本网页的内容由 bluearXiv-ai 自动生成。实际抓取的是 arXiv 中 "new" 页面的数据,即最近的有所在分类论文变动的一天的数据。

- 感谢 arXiv 提供的服务。评论和精选由 AI 生成,不代表任何人对论文本身的看法。精选依赖于论文与给定关键词的匹配度。

- 计数基于主学科,不计重数。

- This webpage is automatically generated by bluearXiv-ai.

- The data actually captured is from the "new" page, that is, the data of the most recent day when there were changes in corresponding subjects.

- Thanks for services prodived by arXiv. Comments and selection of good papers are generated by AI, not showing anyone's point of view about those papers.

- The selection also depends on the matched-degrees between papers and given keywords.

- The counters are based on main subject, not counting multiplicities.