bluearXiv-ai - 2026-03-09

📄 所有论文 ↑ 回顶部

cs.LG

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Peiran Li et al.

cs.LG cs.AI cs.CR cs.SE

本文提出了一种名为Traversal-as-Policy的方法，通过将执行日志提炼成可执行的Gated Behavior Tree (GBT)来构建外部化、可验证的智能体策略。该方法旨在提升任务成功率、降低安全违规并减少计算成本，在多个软件和网络基准测试中取得了显著效果。

JAWS: Enhancing Long-term Rollout of Neural Operators via Spatially-Adaptive Jacobian Regularization

Fengxiang Nie, Yasuhiro Suzuki

cs.LG cs.AI physics.comp-ph

本文提出了一种名为JAWS的正则化策略, 用于增强神经算子(neural operator)在长期自回归推演中的稳定性. 该方法通过空间自适应的Jacobian正则化, 在平滑区域抑制噪声, 在奇异特征附近保留梯度, 从而缓解了收缩与耗散之间的矛盾. 在一维粘性Burgers方程上的实验表明, 该方法能提升长期稳定性、激波保真度以及分布外泛化能力.

VDCook:DIY video data cook your MLLMs

Chengwei Wu

cs.LG cs.AI cs.IR cs.MM

本文介绍了一个名为VDCook的自演进视频数据操作系统, 它允许用户通过自然语言查询和可调参数来请求数据, 系统自动执行查询优化并混合检索真实视频与可控合成模块, 最终生成带有完整溯源和元数据的领域内数据包. 该平台旨在通过基础设施层面的解决方案, 显著降低构建专业视频训练数据集的门槛.

IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings

Kazuhisa Nakasho

cs.LG

本文提出了一种名为IntSeqBERT的双流Transformer模型, 用于预测OEIS整数序列. 该模型通过结合对数尺度幅度嵌入和模数谱嵌入来学习序列的算术结构, 并利用基于中国剩余定理的求解器将预测转换为具体整数. 实验表明, 该方法在多项指标上显著优于标准的标记化Transformer基线.

Autocorrelation effects in a stochastic-process model for decision making via time series

Tomoki Yamagami et al.

cs.LG cs.ET math.PR physics.optics

本文通过分析一个基于时间序列的随机过程模型, 探讨了自相关特性在解决双臂赌博机问题中的影响. 研究发现, 时间序列的自相关符号(正或负)对决策性能的影响取决于环境奖励的丰富程度.

Towards Efficient and Stable Ocean State Forecasting: A Continuous-Time Koopman Approach

Rares Grozavescu et al.

cs.LG cs.AI physics.app-ph physics.comp-ph physics.geo-ph

本文提出了一种基于Continuous-Time Koopman Autoencoder (CT-KAE)的轻量级代理模型，用于两层准地转海洋系统的长期状态预报。该模型通过将非线性动力学映射到由线性常微分方程控制的潜空间，实现了结构化的时间演化，并在长期推演中表现出稳定的误差增长和统计特性，计算速度远快于数值求解器。

When AI Levels the Playing Field: Skill Homogenization, Asset Concentration, and Two Regimes of Inequality

Xupeng Chen, Shuchen Meng

cs.LG cs.AI

本文通过一个包含内生教育、雇主筛选和异质性企业的任务模型，分析了生成式AI在压缩任务内技能差异的同时，将经济价值转向集中互补资产所导致的矛盾现象。模型揭示了两种不平等体制，其边界取决于AI的技术结构和劳动力市场制度。

Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment

Xiang Ma et al.

cs.LG cs.CL

本文提出了一种名为CDDS的新方法, 用于解决跨模态对齐中语义与非语义信息纠缠的问题. 该方法通过约束解耦和分布采样来提升对齐效果, 并在多个基准测试中取得了显著的性能提升.

FuseDiff: Symmetry-Preserving Joint Diffusion for Dual-Target Structure-Based Drug Design

Jianliang Wu et al.

cs.LG

本文提出了一种名为FuseDiff的端到端扩散模型，用于联合生成配体分子图和两个口袋特异性的结合构象。该方法通过双靶点局部上下文融合模块来保持对称性并实现表达性联合建模，在基准测试中取得了先进的对接性能。

Why Depth Matters in Parallelizable Sequence Models: A Lie Algebraic View

Gyuryang Heo et al.

cs.LG

本文从Lie代数控制的角度, 分析了可并行序列模型(如Transformer变体)的表达能力边界. 理论将模型深度与Lie代数扩展塔对应起来, 推导了近似误差随深度指数衰减的界, 并通过符号和连续状态跟踪实验验证了理论预测.

A Novel Hybrid Heuristic-Reinforcement Learning Optimization Approach for a Class of Railcar Shunting Problems

Ruonan Zhao, Joseph Geunes

cs.LG math.OC

本文针对具有双侧分类轨道访问的铁路调车问题, 提出了一种混合启发式-强化学习(HHRL)框架. 该框架将领域启发式与Q-learning结合, 通过分解问题和缩减状态-动作空间来求解这一组合优化问题.

Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

Olaf Yunus Laitinen Imanov

cs.LG cs.AI eess.SP

本文提出了一种结合MGWR, RF和ST-GCN的GeoAI混合框架, 用于分析多模式城市交通流与土地利用的时空异质性交互. 实证结果表明该框架在预测精度和空间自相关控制上优于基准模型, 并识别了关键的预测因子和城市交通类型.

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Ivan Luiz De Moura Matos et al.

cs.LG cs.CV

本文提出了一种从标准预训练模型中提取无偏子网络的方法, 称为BISE. 该方法通过剪枝识别并隔离模型中的"无偏"部分, 无需重新训练或微调, 即可实现高效的偏差缓解.

On the Value of Tokeniser Pretraining in Physics Foundation Models

Hadi Sotoudeh et al.

cs.LG astro-ph.IM cs.AI physics.comp-ph

本文研究了tokeniser预训练对物理仿真模型精度与效率的影响. 通过实验发现, 在训练动力学模型之前, 使用自编码目标对tokeniser进行预训练能提升下游任务的计算效率, 且收益大小与预训练和下游任务领域的对齐程度有关. 研究还引入了灵活的时空压缩操作以支持运行时可调的压缩率.

Identifying Adversary Characteristics from an Observed Attack

Soyon Choi, Scott Alfeld, Meiyi Ma

cs.LG

本文提出了一种从观测到的攻击中推断攻击者特征的防御框架. 该框架旨在辅助防御者进行外源性缓解或改进对抗性正则化等防御方法的性能.

The Value of Graph-based Encoding in NBA Salary Prediction

Junhao Su, David Grimsman, Christopher Archibald

cs.LG

本文探讨了在NBA球员薪资预测中引入图结构数据的价值. 作者通过构建包含场上和场外数据的知识图谱, 并将其嵌入向量空间后加入表格数据, 提升了监督学习模型的预测能力, 尤其对资深球员和高薪球员效果更佳.

Reinforcement Learning for Power-Flow Network Analysis

Alperen Ergur, Julia Lindberg, Vinny Miller

cs.LG cs.SC math.AG

本文提出了一种基于强化学习的方法来近似计算电力潮流方程的解的数量. 该方法设计了一个概率奖励函数和状态空间, 使得智能体能够发现比高斯模型基线拥有更多实数解的方程实例.

Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Diyuan Wu et al.

cs.LG stat.ML

本文研究了在随机特征岭回归(RFRR)框架下，弱教师模型生成的数据标签如何用于训练更强的学生模型。分析表明，这种两阶段训练过程可以显著提升学生模型的测试误差缩放规律，甚至在某些情况下达到极小极大最优速率。

Warm Starting State-Space Models with Automata Learning

William Fishell, Sam Nicholas Kouteili, Mark Santolucito

cs.LG cs.FL

本文建立了 Moore machines 与 state-space models (SSMs) 之间的精确对应关系，证明了前者可以作为后者的一种实现。通过实验比较，作者发现 SSMs 在从数据中学习自动机结构时效率远低于符号方法，并据此提出了一种结合两者优势的初始化策略，以提升学习复杂系统的效率。

Unsupervised domain adaptation for radioisotope identification in gamma spectroscopy

Peter Lalor, Ayush Panigrahy, Alex Hagen

cs.LG

本文探讨了在gamma spectroscopy中利用unsupervised domain adaptation (UDA)提升基于合成数据训练的模型在真实实验数据上的泛化能力。通过比较多种UDA方法，发现最小化source和target特征向量之间的maximum mean discrepancy (MMD)能有效提高测试准确率。

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

Ved Sriraman, Adam Block

cs.LG cs.AI

本文探讨了 Best-of-N (BoN) 采样在推理时对齐中的统计最优性问题。作者在更贴近实际评估指标（win-rate）的假设下，论证了适当调优的 BoN 可以达到统计最优，并提出了一个能避免 reward hacking 的变体。

MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation

Rifny Rachman et al.

cs.LG

本文提出了一个名为MIRACL的元多目标强化学习框架，用于解决多级组合供应链优化问题。该框架通过任务分解和元学习策略，实现了在动态环境中的快速适应，并在实验中表现优于传统基线方法。

Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing

Vansh Bansal, James G Scott

cs.LG

本文提出了Score-Guided Proximal Projection (SGPP)框架，用于改进Rectified Flow模型的编辑与控制。该框架通过一个近端优化问题，在输入保真度和预训练分数场之间进行权衡，并统一了现有的编辑方法。

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Mykola Pinchuk

cs.LG cs.AI

本文提出了一个名为TML-Bench的基准测试，用于评估数据科学智能体在Kaggle式表格机器学习任务上的表现。研究在多个时间预算下测试了10个开源大语言模型，报告了其成功率与性能变化。

Bridging Domains through Subspace-Aware Model Merging

Levy Chaves et al.

cs.LG cs.AI cs.CV

本文提出了一种名为SCORE的模型合并方法, 旨在解决跨域模型合并中的泛化问题. 该方法通过分析任务矩阵的奇异值分解来识别并缓解子空间冲突, 在多种架构和规模上展现了优于现有方法的域泛化性能.

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Zhankun Luo et al.

cs.LG cs.DC

本文提出了一种用于分布式随机极小极大优化问题的Softmax加权切换梯度方法. 该方法在联邦学习场景下, 通过单循环的原始变量切换机制, 避免了传统对偶或罚函数方法的超参数敏感性问题.

Sparse Crosscoders for diffing MoEs and Dense models

Marmik Chaudhari, Nishkal Hundia, Idhant Gulati

cs.LG

本文使用一种称为 crosscoders 的稀疏自编码器变体, 系统地比较了 MoE (Mixture of Experts) 与稠密模型 (dense model) 的内部表示. 研究发现, MoE 学习到的独特特征更少, 且其特征组织方式更为专业化.

MoE Lens -- An Expert Is All You Need

Marmik Chaudhari et al.

cs.LG

本文通过分析DeepSeekMoE模型，研究了Mixture of Experts (MoE)模型中专家的专业化行为。研究发现，模型主要依赖少数几个专家，单个顶级专家的输出与完整专家集合的预测高度相似，这为通过有针对性的专家剪枝来优化推理成本提供了潜在机会。

Self-Auditing Parameter-Efficient Fine-Tuning for Few-Shot 3D Medical Image Segmentation

Son Thai Ly, Hien V. Nguyen

cs.LG

本文提出了一种名为SEA-PEFT的自审计参数高效微调方法，用于解决少样本3D医学图像分割中模型适配的自动化问题。该方法通过一个搜索-审计-分配的循环，在训练过程中动态选择和配置适配器，在多个数据集上取得了优于固定拓扑基线方法的效果。

Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

Shubhangi Upasani et al.

cs.LG cs.CL

本文通过实证研究探讨了使用 many-shot prompting 进行 test-time adaptation 的效果与局限. 研究发现, 该方法在结构化任务上有效, 但对示例选择策略敏感, 且在开放式生成任务中收益有限.

Stochastic Event Prediction via Temporal Motif Transitions

İbrahim Bahadır Altun, Ahmet Erdem Sarıyüce

cs.LG cs.SI

本文提出了一个名为STEP的连续时间序列预测框架, 用于时序网络中的事件预测. 该框架通过基于时序motif的贝叶斯评分来预测下一个交互事件, 并能生成特征向量以增强现有图神经网络模型.

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

Xuan Li et al.

cs.LG cs.AI

本文提出了一种名为Reference-guided Policy Optimization (RePO)的方法，用于解决基于指令的分子优化问题。该方法结合了强化学习和监督学习，在缺乏逐步优化轨迹数据的情况下，利用参考分子引导模型探索并稳定训练。

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman

cs.LG cs.AI q-fin.ST

本文提出了一种结合节点Transformer架构与BERT情感分析的股票价格预测集成框架. 该模型将市场建模为图结构, 并融合社交媒体情感与量化特征, 在S&P 500数据上取得了优于传统基准的预测精度.

Design Experiments to Compare Multi-armed Bandit Algorithms

Huiling Meng, Ningyuan Chen, Xuefeng Gao

cs.LG math.ST stat.ML

本文提出了一种名为Artificial Replay (AR)的新实验设计方法, 用于比较multi-armed bandit算法. 该方法通过复用先前策略的记录来减少实验所需的用户交互次数, 从而降低实验成本.

Weak-SIGReg: Covariance Regularization for Stable Deep Learning

Habibullah Akbar

cs.LG

本文提出了一种名为Weak-SIGReg的协方差正则化方法，用于稳定深度学习的优化过程。该方法通过约束表征分布来防止训练崩溃，并在ViT和MLP等模型上取得了效果。

Omni-Masked Gradient Descent: Memory-Efficient Optimization via Mask Traversal with Improved Convergence

Hui Yang et al.

cs.LG

本文提出了一种基于mask遍历的内存高效优化方法OMGD, 并给出了非凸收敛性分析, 其迭代复杂度为\(\tilde{\mathcal{O}}(\epsilon^{-3})\). 实验表明, 该方法能无缝集成到主流优化器中, 在微调和预训练任务上均有提升.

EvoESAP: Non-Uniform Expert Pruning for Sparse MoE

Zongfang Liu et al.

cs.LG

本文提出了一种用于稀疏专家混合模型的后训练剪枝方法 EvoESAP. 该方法通过解耦层内专家排序和跨层预算分配, 并引入一个名为 ESAP 的评估指标来优化非均匀的层间稀疏度分配, 从而在保持相同全局稀疏度的前提下提升模型性能.

Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

Michael Beukman et al.

cs.LG

本文针对PPO算法在训练中出现的性能停滞问题, 提出了一种通过大规模并行环境采样来缓解该问题的方案. 作者将PPO的外层循环建模为随机优化, 指出性能停滞源于更新步长相对于梯度噪声过大, 并验证了增加并行环境数量是同时减小两者的有效方法. 通过提出相应的超参数协同缩放方案, 作者成功将PPO扩展到超过一百万个并行环境, 在复杂开放域任务中实现了单调的性能提升.

Agnostic learning in (almost) optimal time via Gaussian surface area

Lucas Pesenti, Lucas Slot, Manuel Wiedmer

cs.LG cs.DS stat.ML

本文改进了在Gaussian分布下agnostic learning的复杂度分析. 通过优化低阶多项式\(L_1\)逼近的阶数, 将所需阶数从\(O(\Gamma^2 / \varepsilon^4)\)降低到\(\tilde O (\Gamma^2 / \varepsilon^2)\).

Improved high-dimensional estimation with Langevin dynamics and stochastic weight averaging

Stanley Wei, Alex Damian, Jason D. Lee

cs.LG

本文研究了在高维估计问题中，Langevin dynamics 结合迭代平均能否达到与显式平滑景观方法相同的样本复杂度。结果表明，通过考虑平均迭代而非最终迭代，可以在 tensor PCA 和 single-index models 等设置中实现 \(n \gtrsim d^{ k^\star/2 }\) 的样本复杂度。

Latent Diffusion-Based 3D Molecular Recovery from Vibrational Spectra

Wenjin Wu et al.

cs.LG physics.chem-ph

本文提出了一种名为IR-GeoDiff的latent diffusion model，用于从红外光谱中恢复三维分子几何结构。该模型将光谱信息整合到分子结构的节点和边表示中，能够生成与给定光谱对应的分子分布。

Dynamic Momentum Recalibration in Online Gradient Learning

Zhipeng Yao et al.

cs.LG

本文从信号处理的角度重新审视了梯度更新, 提出了一种名为SGDF的优化器. 它通过在线计算时变增益来动态优化梯度估计, 在多个基准测试中取得了优于传统动量方法的效果.

DQE: A Semantic-Aware Evaluation Metric for Time Series Anomaly Detection

Yuewei Li et al.

cs.LG

本文针对时间序列异常检测的评估问题, 提出了一种新的语义感知评估指标DQE. 该指标通过基于检测语义的分区策略和全阈值谱聚合方法, 旨在提供更稳定、可区分且可解释的评估结果.

Partial Policy Gradients for RL in LLMs

Puneet Mathur et al.

cs.LG cs.AI

本文提出了一种在 policy gradients 中建模策略结构的方法, 通过优化未来奖励的子集来定义不同复杂度的策略类. 该方法允许对包括完全规划、贪婪和K步前瞻等策略进行建模和比较. 在多个对话任务上的实验表明, 不同策略在不同问题上表现各异.

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Björn van Zwol

cs.LG cond-mat.dis-nn cs.AI cs.NE stat.ML

本文证明了predictive coding graphs (PCGs) 构成了feedforward neural networks (多层感知机) 的一个数学超集。这一结果将PCGs更紧密地置于当代机器学习框架内，并支持了对非层级网络拓扑结构的研究。

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez

cs.LG cs.AI physics.geo-ph

本文研究了利用输入扰动生成ensemble进行海面温度概率预测的图神经网络方法. 通过比较不同噪声扰动策略对预测不确定性的影响, 发现具有空间相关性的扰动能产生更好的校准效果.

Topological descriptors of foot clearance gait dynamics improve differential diagnosis of Parkinsonism

Jhonathan Barrios et al.

cs.LG stat.AP

本文利用Topological Data Analysis (TDA) 从足部间隙时间序列中提取拓扑特征，结合Random Forest分类器来区分不同类型的帕金森综合征。实验结果表明，基于Betti曲线的特征在分类任务中表现最佳，为临床步态分析提供了新的补充工具。

FedSCS-XGB -- Federated Server-centric surrogate XGBoost for continual health monitoring

Felix Walger et al.

cs.LG

本文提出了一种用于可穿戴传感器数据人类活动识别的分布式机器学习协议 FedSCS-XGB, 它基于 XGBoost 并保留了其核心优化特性. 理论分析和实验表明, 该协议在特定条件下能收敛到接近集中式训练的性能.

DC-Merge: Improving Model Merging with Directional Consistency

Han-Chen Zhang et al.

cs.LG cs.CV

本文提出了一种名为DC-Merge的模型合并方法，旨在通过保持奇异空间的方向一致性来更好地集成多个任务模型的知识。该方法首先平滑任务向量的奇异值以平衡能量分布，然后将其投影到共享正交子空间中进行对齐与聚合。实验表明，该方法在视觉和视觉语言任务上取得了先进的性能。

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Aditya Varre, Mark Rofin, Nicolas Flammarion

cs.LG math.OC stat.ML

本文分析了 value-softmax 模型的 gradient flow 动力学, 揭示了优化过程会自然地驱使解趋向于低熵输出. 这一极化效应在多种损失函数下具有普遍性, 为理解 transformer 训练中的经验现象提供了理论机制.

Synthetic Monitoring Environments for Reinforcement Learning

Leonard Pleiss, Carolin Schmidt, Maximilian Schiffer

cs.LG stat.ML

本文提出了 Synthetic Monitoring Environments (SMEs), 一个可完全配置的连续控制任务套件, 用于对 reinforcement learning agent 进行精确的诊断和评估. 它通过提供已知的最优策略和可计算 regret 的机制, 旨在将 RL 评估从经验基准测试转向更严格的科学分析.

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

Songqun Gao et al.

cs.LG cs.AI

本文提出了一种名为DeCoST的学习型两阶段优化框架, 用于解决带有时间窗和可变收益的定向问题(OPTWVP). 该方法通过解耦离散和连续决策变量, 结合并行解码与线性规划优化, 在求解质量和计算效率上超越了现有方法.

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

Mina Farajiamiri et al.

cs.LG cs.AI

本文研究了在放射学问答任务中, 使用基于agent的检索增强推理(agentic retrieval-augmented reasoning)管道如何影响不同大语言模型(LLMs)之间的决策一致性与可靠性. 通过比较34个LLMs在零样本推理和接收统一结构化证据报告两种条件下的表现, 发现agentic方法能显著降低模型间的决策分散度并提升跨模型的答案稳健性.

Stem: Rethinking Causal Information Flow in Sparse Attention

Lin Niu et al.

cs.LG cs.AI

本文提出了一种名为Stem的稀疏注意力模块, 旨在解决因果自注意力在长上下文预填充阶段的计算瓶颈. 该方法通过Token Position-Decay策略和Output-Aware Metric, 根据信息流动态选择关键token, 在减少计算量的同时保持了模型精度.

Polarized Direct Cross-Attention Message Passing in GNNs for Machinery Fault Diagnosis

Zongyu Shi, Laibin Zhang, Maoyin Chen

cs.LG

本文提出了一种名为Polarized Direct Cross-Attention (PolaDCA)的新型图神经网络框架，用于旋转机械的故障诊断。该方法通过数据驱动的图构建和动态注意力机制，提升了模型在噪声环境下的鲁棒性和诊断精度。

From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

Azza Jenane et al.

cs.LG cs.AI

本文提出了一种通过后训练使大语言模型(LLM)能够输出经过校准的不确定性估计的方法. 该方法首先基于嵌入空间中的输出分布计算细粒度的熵不确定性分数, 然后通过Platt scaling进行校准, 最后利用强化学习对模型进行后训练, 使其策略与校准后的不确定性信号对齐. 实验表明, 经过该方法训练的模型比基线具有更好的校准性, 并且能够泛化到未见过的任务上.

Frequency-Separable Hamiltonian Neural Network for Multi-Timescale Dynamics

Yaojun Li, Yulong Yang, Christine Allen-Blanchette

cs.LG eess.SY

本文提出了一种频率可分离的Hamiltonian神经网络(FS-HNN)来建模多时间尺度的动力学系统. 该方法通过使用多个网络分别学习不同时间尺度上的Hamiltonian分量, 改善了模型对复杂、快速变化动态的长期预测能力, 并将其框架扩展到了偏微分方程(PDE)的求解中.

Tiny, Hardware-Independent, Compression-based Classification

Charles Meyers et al.

cs.LG cs.CR

本文探讨了在隐私保护需求下, 利用normalised compression distance (NCD) 进行客户端设备上的分类任务. 作者指出NCD并非一个metric, 并将其扩展至kernel methods的框架中, 同时改进了训练效率. 实验表明, 该方法在少量样本上训练后, 能在计算资源有限的设备上实现高效且准确的分类.

CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing

Mohammadhossein Ghahramani, Mengchu Zhou

cs.LG cs.AI eess.SY

本文提出了一种名为CLAIRE的混合深度学习框架, 用于智能制造中的故障检测. 该框架结合了无监督的深度自编码器进行特征压缩与有监督的分类器进行预测, 并通过事后可解释性技术分析潜在空间.

Adaptive Lipschitz-Free Conditional Gradient Methods for Stochastic Composite Nonconvex Optimization

Ganzhao Yuan

cs.LG math.NA math.OC

本文提出了一种名为ALFCG的自适应投影自由框架, 用于解决随机复合非凸优化问题. 该方法无需全局光滑常数或线搜索, 通过历史迭代差的自归一化累加器估计局部光滑性, 并针对有限和与随机期望问题设计了不同变体, 在噪声水平趋近于零时能达到接近最优的收敛速率.

Adapter-Augmented Bandits for Online Multi-Constrained Multi-Modal Inference Scheduling

Xianzhi Zhang et al.

cs.LG

本文提出了一个名为M-CMAB的框架，用于解决多模态大语言模型在线推理调度问题。该框架结合了预测器、约束器和调度器，在满足多维预算约束的同时优化任务调度，并在合成基准测试中取得了优于现有方法的效果。

Toward Generative Quantum Utility via Correlation-Complexity Map

Chen-Yu Liu et al.

cs.LG quant-ph

本文提出了一种称为"Correlation-Complexity Map"的诊断工具，用于评估真实世界数据分布与IQP类型量子生成模型的结构匹配度。该工具结合了量子相关性指标和经典相关性复杂度指标，并以湍流数据为例进行了验证。

NOBLE: Accelerating Transformers with Nonlinear Low-Rank Branches

Ethan Smith

cs.LG cs.AI cs.CL cs.NE

本文提出了一种名为NOBLE的架构增强方法, 通过在Transformer的线性层中添加非线性低秩分支来加速预训练. 该方法在多个模型上实现了训练效率的提升, 但发现某些数据增强技术可能会干扰其效果.

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

Kartik Sharma, Rakshit S. Trivedi

cs.LG cs.AI cs.CL

本文提出了一种无需训练即可在推理时控制大语言模型行为的方法, 通过近似梯度下降在上下文示例上的表示变化来调整模型激活. 该方法在多种控制任务上表现出色, 能以极少的样本实现高效控制.

When One Modality Rules Them All: Backdoor Modality Collapse in Multimodal Diffusion Models

Qitong Wang et al.

cs.LG

本文研究了多模态扩散模型中的后门攻击现象, 发现了一种"后门模态坍缩"效应. 通过提出Trigger Modality Attribution (TMA)和Cross-Trigger Interaction (CTI)两个量化指标, 实验表明攻击效果往往仅依赖于部分模态, 而非多模态协同作用.

Hierarchical Industrial Demand Forecasting with Temporal and Uncertainty Explanations

Harshavardhan Kamarthi et al.

cs.LG

本文提出了一种用于大规模分层概率时间序列预测的新型可解释性方法, 通过调整通用可解释性技术来处理层次结构和不确定性带来的挑战. 该方法在基于真实工业供应链场景生成的半合成数据集上进行了评估, 实验表明其能以更高的可解释性准确度解释先进的工业预测方法.

Causal Interpretation of Neural Network Computations with Contribution Decomposition

Joshua Brendan Melander et al.

cs.LG q-bio.NC

本文提出了一种名为CODEC的方法, 通过sparse autoencoders分解神经网络隐藏层神经元对输出的贡献, 以提供比单纯分析激活更因果性的解释. 该方法在图像分类网络和视网膜活动模型上进行了应用, 展示了其在控制输出和可视化驱动成分方面的潜力.

A recipe for scalable attention-based MLIPs: unlocking long-range accuracy with all-to-all node attention

Eric Qu et al.

cs.LG cond-mat.mtrl-sci cs.CE physics.chem-ph q-bio.QM

本文提出了一种名为AllScAIP的、基于注意力机制的机器学习原子间势能模型，该模型通过一种全节点注意力机制来处理长程相互作用。模型在大规模训练数据下表现出色，在多个分子和材料基准测试中取得了先进的精度，并能支持稳定的长时间尺度分子动力学模拟。

cs.AI

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

Ali Shamsaddinlou

cs.AI cs.CV cs.LG cs.RO

本文提出RoboLayout, 一种可微分的3D场景布局生成方法, 旨在为具身智能体生成可交互的室内场景. 该方法通过集成可达性约束和局部优化, 提升了布局的可行性和优化效率.

Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum

Lauri Lovén et al.

cs.AI

本文研究了实时AI服务在设备-边缘-云连续体上的资源分配问题, 重点关注服务依赖图(建模为DAG)的拓扑结构对去中心化、基于价格的分配机制稳定性的影响. 研究发现, 当依赖图是层次化(如树或串并联)结构时, 价格能稳定收敛, 而更复杂的依赖关系会导致价格振荡和性能下降. 为此, 作者提出了一种混合管理架构, 通过跨域集成器将复杂子图封装为资源切片, 以简化市场接口, 并通过大量实验验证了该架构在降低价格波动等方面的有效性.

Reasoning Models Struggle to Control their Chains of Thought

Chen Yueh-Han et al.

cs.AI

本文研究了大型语言模型对其思维链(Chain-of-Thought, CoT)内容的控制能力。作者通过构建CoT-Control评估套件发现，模型在按要求控制其思维链内容方面表现不佳，这为利用思维链进行模型行为监控提供了初步的乐观依据。

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Lin Fan et al.

cs.AI cs.CV

本文提出了一种名为MACRO的自进化医学影像智能体, 它能够从已验证的执行轨迹中自主发现并合成有效的多步骤工具序列, 将其注册为新的复合工具, 从而动态扩展其行为库. 该方法通过一个轻量级的图像特征记忆模块来结合视觉-临床上下文, 并使用类似GRPO的训练循环来强化对复合工具的可靠调用, 在多个医学影像数据集上展示了优于静态工具链的编排准确性和跨领域泛化能力.

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Guangrui Li et al.

cs.AI

本文提出了一个名为ProEvolve的基于图的框架，用于对LLM智能体（agent）的测试环境进行可编程的演化。该框架通过图变换来模拟环境的动态变化，并自动生成大量测试环境和任务沙箱，以评估智能体对现实世界动态变化的适应能力。

DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

Yukun Huang et al.

cs.AI

本文提出了一个名为AtS的动态基准构建方法, 用于评估大型语言模型(LLM)在生成深度研究报告(DRR)时的声明级事实性. 作者基于该方法构建了DeepFact-Bench基准和DeepFact-Eval验证智能体, 并在实验中展示了其优于现有验证器的性能.

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Bin Xuan, Ruo Ai, Hakyeon Lee

cs.AI

本文提出了一种基于大语言模型的多智能体系统, 用于自动化评估新产品概念的可行性与市场潜力. 该系统通过模拟不同专业领域的虚拟代理进行结构化审议, 其评估结果与行业专家具有一致性.

Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation

Kai Göbel et al.

cs.AI

本文提出了一个名为PyPDDLEngine的PDDL仿真引擎, 它将规划操作作为工具调用暴露给LLM. 研究比较了经典规划器与两种LLM规划方法在Blocksworld任务上的性能, 发现基于代理的LLM规划仅有小幅优势, 且其收益依赖于环境反馈的性质.

Aggregative Semantics for Quantitative Bipolar Argumentation Frameworks

Yann Munro, Isabelle Bloch, Marie-Jeanne Lesot

cs.AI

本文为 Quantitative Bipolar Argumentation Frameworks (QBAF) 提出了一种新的 gradual semantics 家族，称为 aggregative semantics。该方法将攻击者与支持者的影响分开聚合，通过三个可解释的步骤计算论证的可信度，从而提供了更高的可参数化性和可理解性。

Offline Materials Optimization with CliqueFlowmer

Jakub Grudzien Kuba et al.

cs.AI cs.CE

本文提出了一种基于离线模型优化(MBO)的计算材料发现(CMD)方法, 并引入了领域特定模型CliqueFlowmer. 该方法将目标属性的直接优化融入生成过程, 在材料优化任务上表现优于生成式基线模型.

Conversational Demand Response: Bidirectional Aggregator-Prosumer Coordination through Agentic AI

Reda El Makroum et al.

cs.AI cs.MA eess.SY

本文提出了一种名为"对话式需求响应(CDR)"的协调机制, 利用智能体AI实现聚合商与产消者之间的双向自然语言交互. 通过一个双层多智能体架构, 系统允许灵活性请求的调度与评估, 并支持用户主动发起上游通信. 概念验证表明交互可在12秒内完成, 相关组件已开源.

Artificial Intelligence for Climate Adaptation: Reinforcement Learning for Climate Change-Resilient Transport

Miguel Costa et al.

cs.AI

本文提出了一个基于强化学习(RL)的决策支持框架，用于城市交通系统应对气候变化下长期洪水风险的适应性规划。该框架整合了降雨预测、洪水建模和交通模拟，并通过哥本哈根的案例研究验证了其有效性，表明其能发现比传统优化方法更具韧性的时空适应路径。

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

Giovanni Servedio et al.

cs.AI cs.CL

本文提出了一个名为EpisTwin的神经符号框架, 用于构建以用户为中心的个人知识图谱, 以解决个人人工智能中数据碎片化的问题. 该框架利用多模态语言模型处理异构数据, 并通过图检索增强生成与在线深度视觉细化进行推理, 在一个合成基准上展示了其性能.

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Subramanyam Sahoo et al.

cs.AI cs.CL cs.LG

本文提出了一个名为SAHOO的框架，用于在递归自我改进过程中监控和控制目标对齐漂移。它通过结合多个信号检测器、约束保持检查和回归风险量化来保障改进过程，并在代码生成和数学推理等任务上展示了效果。

Talk Freely, Execute Strictly: Schema-Gated Agentic AI for Flexible and Reproducible Scientific Workflows

Joel Strickland et al.

cs.AI cs.LG cs.MA

本文提出了一种名为schema-gated orchestration的架构原则，旨在调和科学工作流中确定性执行与对话灵活性之间的固有矛盾。该研究通过多模型LLM评分方法评估了现有系统，并识别了当前技术在这两个维度上的权衡。

Boosting deep Reinforcement Learning using pretraining with Logical Options

Zihan Ye et al.

cs.AI cs.LG

本文提出了一种结合符号逻辑与深度强化学习的混合方法, 通过逻辑选项预训练来引导智能体进行长期决策. 该方法在实验中表现优于多种基线模型.

cs.IR

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Jiashu Yang et al.

cs.IR cs.CV

本文提出了一个名为AutoThinkRAG的框架，用于增强多模态文档问答任务。它通过一个查询复杂度路由器来分配推理路径，并采用功能解耦架构，将视觉解释与逻辑推理分离，从而在降低计算成本的同时提升了性能。

CBR-to-SQL: Rethinking Retrieval-based Text-to-SQL using Case-based Reasoning in the Healthcare Domain

Hung Nguyen, Hans Moen, Pekka Marttinen

cs.IR cs.AI cs.CL

本文提出了一种名为CBR-to-SQL的框架，用于医疗领域的自然语言到SQL的转换。该方法采用基于案例推理的两阶段检索机制，以应对医学术语的复杂性和噪声，在特定数据集上取得了良好的效果。

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

Ruixuan Sun et al.

cs.IR cs.AI cs.HC

本文设计了一种结合topic-locality dual calibration和LLM生成提示的新闻推荐框架，旨在提升用户对国内与国际新闻的阅读多样性。通过一个为期5周的真实用户实验，研究发现算法层面的干预能有效增加新闻曝光和消费的多样性。

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Maik Larooij

cs.IR cs.AI

本文探讨了在敏感领域(如医疗、政府)构建检索增强的对话式意图澄清系统所面临的研究挑战. 作者提出了一个包含攻击模型定义、检索层敏感感知防御设计以及系统效用与保护水平权衡评估的三步研究框架.

ChatShopBuddy: Towards Reliable Conversational Shopping Agents via Reinforcement Learning

Yiruo Cheng et al.

cs.IR

本文提出了一种基于强化学习(RL)的优化方法，用于提升面向真实场景的对话购物智能体(agent)的性能。该方法通过构建基准测试、设计分层奖励模型以及动态对比策略优化，旨在同时满足产品正确性、说服力等多重目标。

MLLMRec-R1: Incentivizing Reasoning Capability in Large Language Models for Multimodal Sequential Recommendation

Yu Wang et al.

cs.IR

本文提出了一种用于多模态序列推荐的推理框架MLLMRec-R1, 旨在解决现有基于GRPO的方法在扩展至多模态场景时面临的计算成本高和奖励膨胀问题. 该方法通过离线文本化视觉信号和构建高质量的多模态思维链监督来提升效率和稳定性.

Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion

Pengcheng Jiang et al.

cs.IR cs.LG

本文提出了一种名为R4T的方法, 用于解决集合值检索问题. 该方法结合了强化学习与扩散模型, 旨在高效地生成满足高阶属性(如多样性)的检索结果集合.

cs.CL

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

Dorsaf Sallami, Esma Aïmeur

cs.CL cs.HC cs.IR

本文介绍了一款名为Aletheia的浏览器扩展，它利用RAG和LLMs来检测虚假新闻并提供基于证据的解释。该系统还包含互动组件，并通过实验和用户研究验证了其检测性能和可用性。

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Faruk Alpay, Bilge Senturk

cs.CL cs.FL cs.LG

本文研究了 grammar-constrained decoding (GCD) 中上下文无关文法 (CFG) 的等价性与解码效率之间的关系。文章证明了文法等价性下的 oracle 不变性定理，并分析了不同文法结构（如右递归与连接）对在线歧义成本 (SAC) 的显著影响。作者建立了与具体引擎无关的下界，并探讨了文法优化与条件采样器的理论性质。

NOTAI.AI: Explainable Detection of Machine-Generated Text via Curvature and Feature Attribution

Oleksandr Marchenko Breneur et al.

cs.CL

本文提出了一个名为NOTAI.AI的可解释性框架, 用于检测机器生成的文本. 该框架通过整合曲率信号, 神经网络特征和文体测量特征, 并使用XGBoost元分类器进行决策, 同时利用SHAP和LLM生成解释.

Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs

Patrick Ahrend et al.

cs.CL

本文研究了在大型语言模型中使用 Chain-of-Thought 提示时，个人身份信息从输入泄露到推理过程和输出的风险。作者提出了一个模型无关的评估框架来量化这种泄露，并测试了几种轻量级的实时过滤方法以平衡效用与风险。

The Fragility Of Moral Judgment In Large Language Models

Tom van Nuenen, Pratik S. Sachdeva

cs.CL cs.AI cs.HC

本文通过一个扰动框架测试了大型语言模型(LLM)在道德判断上的稳定性和可操纵性. 研究发现, 模型的判断极易受到叙事视角和评估协议选择的影响, 而非仅基于道德困境本身.

FreeTxt-Vi: A Benchmarked Vietnamese-English Toolkit for Segmentation, Sentiment, and Summarisation

Hung Nguyen Huy et al.

cs.CL

本文介绍了一个名为FreeTxt-Vi的免费开源网络工具包，用于创建和分析越南语-英语双语文本语料库。该工具集成了语料库分析功能和基于Transformer的NLP组件，旨在降低多语言文本分析的技术门槛。

Towards Robust Retrieval-Augmented Generation Based on Knowledge Graph: A Comparative Analysis

Hazem Amamou et al.

cs.CL

本文基于知识图谱对检索增强生成(RAG)系统进行了鲁棒性比较分析. 实验在RGB基准的多个场景下进行, 结果表明基于知识图谱的GraphRAG方法在鲁棒性上优于基线, 为设计更可靠的RAG系统提供了参考.

Cultural Perspectives and Expectations for Generative AI: A Global Survey Approach

Erin van Liemt et al.

cs.CL cs.AI

本文通过一项全球性调查, 探讨了不同群体对文化在生成式AI中应如何被理解和呈现的看法. 研究基于来自多个大洲的问卷数据, 提炼了文化的操作性定义, 并最终为AI开发提出了一系列建议, 包括采用参与式方法和关注宗教、传统等特定文化维度.

Structured Multidimensional Representation Learning for Large Language Models

Alaa El Ichi et al.

cs.CL math.NA

本文提出了一种基于三阶张量L-积的结构化谱分解方法，用于压缩Transformer模型的嵌入空间。该方法将词元表示重塑为谱张量切片，并在变换域中执行注意力与前馈操作，从而在减少编码器参数的同时保持模型性能。实验表明，该模型能在显著压缩参数的情况下，在文本分类任务上保持有竞争力的准确率。

Let's Talk, Not Type: An Oral-First Multi-Agent Architecture for Guaraní

Samantha Adorno, Akshata Kishore Moharir, Ratna Kandala

cs.CL

本文针对以Guaraní语为代表的口语优先语言, 提出了一个脱离标准"文本转语音"管道的多智能体架构. 该架构通过分离自然语言理解、对话状态和社区治理等模块, 旨在尊重土著数据主权和双语现象, 将口语对话视为核心设计需求.

CodeScout: Contextual Problem Statement Enhancement for Software Agents

Manan Suri et al.

cs.CL cs.SE

本文提出了一种名为CodeScout的上下文查询精化方法，用于增强软件代理处理模糊问题描述的能力。该方法通过对目标代码库进行轻量级预探索，将不明确的用户请求转化为全面的、可执行的问题陈述。

NERdME: a Named Entity Recognition Dataset for Indexing Research Artifacts in Code Repositories

Genet Asefa Gesese et al.

cs.CL

本文提出了NERdME, 一个用于代码仓库README文件命名实体识别的数据集, 包含200个手动标注的文件和10种实体类型. 基线实验表明, 从README中提取的实体有助于实现工件的发现和元数据集成.

PVminerLLM: Structured Extraction of Patient Voice from Patient-Generated Text using Large Language Models

Samah Fodeh et al.

cs.CL cs.AI

本文提出了一个用于从患者生成文本中结构化提取患者声音的基准PVminer，并开发了一个经过监督微调的大型语言模型PVminerLLM来完成此任务。该模型在多个数据集上显著优于基于提示的基线方法，证明了即使使用较小模型也能实现可靠的提取。

Tutor Move Taxonomy: A Theory-Aligned Framework for Analyzing Instructional Moves in Tutoring

Zhuqian Zhou et al.

cs.CL

本文提出了一个用于分析辅导对话中教学行为的分类框架, 即"Tutor Move Taxonomy". 该框架通过混合演绎-归纳法构建, 将辅导行为分为四类, 旨在支持对辅导策略的大规模计算建模和效果分析.

RouteGoT: Node-Adaptive Routing for Cost-Efficient Graph of Thoughts Reasoning

Yuhang Liu et al.

cs.CL

本文提出了RouteGoT, 一个用于图结构推理的节点自适应路由框架. 它通过将强模型分配给关键规划与综合节点, 并将轻量模型动态分配给叶子任务, 在控制预算的同时提升了推理效率.

HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models

Shize Liang, Hongzhi Wang

cs.CL

本文提出了一个名为HART的细粒度幻觉归因与证据检索框架, 用于分析大型语言模型(LLMs)中的幻觉问题. 该框架将幻觉追踪形式化为一个包含片段定位、机制归因、证据检索和因果追踪的结构化建模任务, 并构建了相应的数据集进行验证.

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Juyong Jiang et al.

cs.CL cs.LG cs.SE

本文提出了一种名为 ReflexiCoder 的强化学习框架，用于增强大型语言模型在代码生成任务中的自我反思与自我修正能力。该方法通过内部化推理轨迹，在无需外部执行反馈的情况下提升了模型在多个代码基准测试上的性能。

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Mingluo Su, Huan Wang

cs.CL cs.LG

本文提出了一种名为ROSE的改进方法, 用于提升SparseGPT框架下单次剪枝大型语言模型的精度. 该方法通过预剪枝评估权重重要性, 并引入基于列损失和块损失的两级重排序机制, 自适应地调整剪枝顺序, 从而在多个LLM模型上取得了优于原版SparseGPT和其他对比方法的性能.

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

Changcheng Li et al.

cs.CL

本文提出了一种新的LLM不确定性估计范式, 即在生成答案前先输出置信度. 作者设计了CoCA框架, 通过分段信用分配联合优化置信度校准和答案准确性. 实验表明该方法在多个任务上提升了校准效果.

VerChol -- Grammar-First Tokenization for Agglutinative Languages

Prabhu Raja

cs.CL

本文针对黏着语(agglutinative languages)提出了一种名为VerChol的语法优先分词方法. 该方法旨在解决传统统计分词器(如BPE)在处理黏着语时割裂语素边界并导致token数量膨胀的问题.

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Junjie Li et al.

cs.CL cs.AI

本文提出了ConStory-Bench基准和ConStory-Checker检测流程，用于评估大型语言模型在生成长篇故事时的叙事一致性。研究发现，一致性错误在事实和时间维度最为常见，并呈现出特定的分布规律。

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Hussein Ghaly

cs.CL

本文提出了一种基于LLM集成系统的方法, 用于对联合国安理会决议进行语义标注. 该方法通过引入Content Preservation Ratio (CPR)和Tag Well-Formedness (TWF)两个评估指标来筛选不同GPT模型多次运行的最佳输出, 以平衡性能与成本.

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

Maksym Taranukhin et al.

cs.CL

本文提出了一个名为InfoGatherer的框架，用于在文档问答系统中处理信息不足的查询。它通过结合从文档中检索证据和向用户提出针对性后续问题来收集缺失信息，并使用Dempster-Shafer证据理论建模不确定性，以避免过早给出确定答案。在医疗和法律任务上的实验表明，该方法优于现有基线且交互轮次更少。

Learning Next Action Predictors from Human-Computer Interaction

Omar Shaikh et al.

cs.CL cs.HC

本文提出了next action prediction (NAP)任务, 旨在根据用户与计算机的多模态交互历史预测其下一步行动. 作者构建了一个大规模标注数据集, 并引入了结合参数化与上下文学习的LongNAP模型, 该模型在预测用户行为方面优于基线方法.

Addressing the Ecological Fallacy in Larger LMs with Human Context

Nikita Soni et al.

cs.CL cs.AI cs.HC cs.LG

本文探讨了在大型语言模型中通过建模作者语言上下文来应对生态学谬误的方法. 实验表明, 在微调阶段考虑作者上下文能提升模型性能.

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Chanhui Zhu

cs.CL cs.LG

本文提出了一种结构化风格重写框架, 用于解决低资源角色建模中风格解耦的挑战. 该方法通过显式解耦词汇、句法和语用风格, 并利用思维链蒸馏进行隐式风格条件化, 提升了小语言模型在风格一致性和语义保真度上的表现.

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Nikita Soni et al.

cs.CL cs.AI cs.HC cs.LG

本文结合心理学理论构建了可解释模型, 用于从社交媒体数据中预测心理健康状态. 该方法整合了个人特质与情境特征, 并与基于语言模型的嵌入方法进行了比较.

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

Bingfeng Chen et al.

cs.CL

本文提出了Track-SQL框架，通过引入两个提取模块来增强生成式语言模型在多轮Text-to-SQL任务中的表现。该方法在SparC和CoSQL数据集上取得了先进的性能。

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Yang Liu et al.

cs.CL cs.AI cs.MA

本文提出了一个名为MASFactory的图中心框架, 用于编排基于LLM的多智能体系统. 该框架引入了Vibe Graphing方法, 可将自然语言意图编译为可执行的工作流图, 并提供了可复用组件和可视化工具.

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Xingjian Tao et al.

cs.CL cs.CV

本文提出了一个名为ViewFusion的两阶段框架，用于解决多视图空间推理问题。该框架通过分离空间预对齐与问答阶段，提升了模型在需要跨视图对齐任务上的性能。

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Jonas Kubesch, Lena Huber, Clemens Havas

cs.CL cs.AI

本文研究了使用开源大语言模型对奥地利高中德语作文进行自动评分。实验表明，尽管模型能够遵循评分标准，但其与人类评分者的一致性较低，尚不足以在实际评分环境中可靠应用。

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Xi Wang, Mengdie Zhuang, Jiqun Liu

cs.CL cs.AI

本文通过持续预训练模拟经验积累, 研究了不同领域文本如何塑造LLM的"性格"并影响其问题解决能力. 研究发现模型能力呈双峰分布, 并揭示了训练数据语言特征与模型行为之间的因果关系.

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Xuyao Feng, Anthony Hunter

cs.CL cs.AI

本文提出了一种处理enthymemes（省略三段论）的pipeline, 结合了large language model (LLM)进行隐含前提生成与自然语言到逻辑公式的翻译, 以及一个基于SAT solver的neuro-symbolic reasoner进行entailment判定. 该方法在enthymeme数据集上评估了生成隐含前提的准确性.

Diffusion Language Models Are Natively Length-Aware

Vittorio Rossi et al.

cs.CL cs.LG

本文提出了一种针对Diffusion Language Models (DLMs)的零采样机制，通过利用潜在提示表示来动态预测并裁剪生成所需的上下文窗口长度，从而在多个基准测试中实现了显著的计算效率提升，且对模型性能影响甚微。

A Causal Graph Approach to Oppositional Narrative Analysis

Diego Revilla et al.

cs.CL cs.AI

本文提出了一种基于图的框架, 用于检测、分析和分类对立叙事. 该方法将叙事表示为实体交互图, 并通过节点级的因果估计来提炼出用于分类的最小因果子图.

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Mohammed Baharoon et al.

cs.CL cs.AI cs.CV

本文提出了一个名为CRIMSON的临床评估框架，用于评估胸部X光报告生成的质量。该框架整合了完整的临床背景信息，并引入了一个基于临床重要性的错误分类与加权系统。

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

Naifan Zhang et al.

cs.CL cs.AI

本文提出了一种名为MAPO的无critic高效强化学习算法, 用于解决主观性多轮对话任务中的长期信用分配问题. 该方法利用judge模型提供的密集过程反馈, 并通过混合优势估计器结合turn-level和batch-level归一化来稳定优化. 实验表明, MAPO在多个主观对话基准上超越了仅使用结果监督的基线方法.

Wisdom of the AI Crowd (AI-CROWD) for Ground Truth Approximation in Content Analysis: A Research Protocol & Validation Using Eleven Large Language Models

Luis de-Marcos, Manuel Goyanes, Adrián Domínguez-Díaz

cs.CL

本文提出了一个名为AI-CROWD的协议，旨在解决大规模内容分析中缺乏真实标注数据的问题。该协议通过集成多个大型语言模型(LLMs)的输出，利用多数投票和诊断指标来生成一个共识性的近似真实标注。

LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation

Koki Itai et al.

cs.CL

本文提出了一个名为LIT-RAGBench的基准测试，用于评估大型语言模型在检索增强生成(RAG)中作为生成器的综合能力。该基准定义了五个评估类别，并构建了一个包含虚构场景的数据集，以系统性地衡量模型在整合长上下文、多步推理等方面的表现。

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Qihang Fan et al.

cs.CL cs.AI

本文提出了一种名为FlashPrefill的框架, 旨在加速长上下文大语言模型中的预填充阶段. 该方法通过快速块搜索和动态阈值技术来即时发现稀疏注意力模式, 从而显著降低计算复杂度.

SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models

Yunlong Chu et al.

cs.CL

本文提出了一种名为SPOT的框架, 用于压缩大型语言模型中的显式思维链推理过程. 该方法通过引入Span-level Semantic Alignment和Frozen-Head Decoding Constraint, 旨在实现更高效且可解释的潜在推理.

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

Hari Shankar et al.

cs.CL cs.CY

本文通过分析多个主流LLM的内部表示, 发现它们在处理亚洲多国宗教议题时与当地公众态度存在显著偏差, 尤其未能准确反映少数群体的观点. 研究指出, 简单的干预措施无法完全消除这些文化鸿沟, 并强调了进行系统性、区域性审计的必要性.

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Anca Dinu et al.

cs.CL cs.CV

本文结合人类评估与计算方法, 分析了AI生成图像对当代艺术品的模仿效果. 研究发现基于颜色/纹理的相似性与构图/概念/感知相似性存在显著差距, 并建议使用多指标仪表板进行评估.

Transparent AI for Mathematics: Transformer-Based Large Language Models for Mathematical Entity Relationship Extraction with XAI

Tanjim Taharat Aurpa

cs.CL

本文提出了一种基于Transformer的数学实体关系提取(MERE)框架, 将数学问题中的操作数视为实体, 运算符视为关系. 该研究应用了BERT等模型, 并结合SHAP方法进行可解释性分析, 以增强模型预测的透明度.

Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Hirohiko Abe et al.

cs.CL

本文通过构建包含 deontic modality 的 Wason Selection Task 数据集, 系统评估了大型语言模型在 deontic 规则下的条件推理能力. 研究发现, 与人类类似, 模型在 deontic 规则下表现更好, 并且其错误模式与人类的 matching bias 相似.

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Minh Hoang Nguyen et al.

cs.CL

本文在IELTS写作任务上系统比较了多种基于大语言模型的自动作文评分方法, 包括分类微调, 提示, 指令微调结合检索增强生成, 以及监督微调结合直接偏好优化等方法. 研究发现不同方法在准确性, 成本和鲁棒性之间存在权衡, 其中结合k-SFT与RAG的配置取得了最佳性能.

Abductive Reasoning with Syllogistic Forms in Large Language Models

Hirohiko Abe et al.

cs.CL cs.AI

本文通过将 syllogistic 数据集转换为适合 abduction 的形式, 探讨了 LLMs 在 abductive reasoning 上的准确性. 研究旨在调查最先进的 LLMs 是否在 abduction 中表现出偏见, 并强调超越形式演绎的 contextualized reasoning 的重要性.

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

Vittoria Vineis et al.

cs.CL cs.AI

本文提出了一个名为PONTE的框架，旨在通过人机交互循环生成个性化且可信的自然语言解释。该框架将个性化建模为一个闭环的验证与适应过程，结合了偏好建模、基于结构化XAI产出的生成器以及多个验证模块。自动和人工评估表明，其验证-精炼循环在完整性和风格对齐方面优于无验证的生成方法。

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Anmol Gulati et al.

cs.CL

本文提出了一个用于电子表格理解和编辑的多模态智能体框架, 通过迭代式工具调用循环替代单次检索, 以处理包含大量单元格和依赖关系的复杂工作簿. 该框架在多个基准测试中取得了最先进的性能, 并评估了不同的嵌入模型和大型语言模型对系统效果的影响.

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

Yuchen Zhang, Haralambos Mouratidis, Ravi Shekhar

cs.CL

本文提出了一种支持多语言和口音的上下文感知自动语音识别框架, 结合了冻结的 speech encoder 和 decoder-only language model, 并通过 contrastive learning 来对齐 speech 和 contextual representations. 在包含11种语言和5种英语方言的真实对话数据上, 该方法取得了超过5%的性能提升.

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

Archie Sage, Salvatore Greco

cs.CL

本文描述了KCLarity团队在SemEval 2026关于政治话语模糊与规避技术分类任务中的参与。研究比较了直接预测清晰度标签和通过任务分类层次预测规避标签再推导清晰度这两种建模方法，并评估了基于编码器的模型和零样本解码器模型的性能。

cs.DS

How to Sort in a Refrigerator: Simple Entropy-Sensitive Strictly In-Place Sorting Algorithms

Ofek Gila, Michael T. Goodrich, Vinesh Sridhar

cs.DS

本文提出了两种严格原地(仅使用\(O(1)\)额外内存)的基于比较的排序算法. 这些算法的时间复杂度为\(O(n(1+H(A)))\), 其中\(H(A)\)是输入数组的基于游程的熵, 在此意义上是最优的.

Forwarding Packets Greedily

Joan Boyar et al.

cs.DS

本文研究了在线数据包转发问题, 目标是最小化最大流时间. 针对每个数据包只需经过一个或两个路由器的特殊情况, 作者分析了一个之前未被考虑的贪心算法, 证明了其竞争比为 \(2-2^{1-k}\), 其中 \(k\) 是网络中活跃路由器的数量. 同时, 文章给出了一个适用于随机算法的通用下界 \(4/3\).

Transversal Rank, Conformality and Enumeration

Martin Schirneck

cs.DS

本文研究了超图的 transversal rank 计算问题, 改进了已知算法的时间复杂度. 作者提出了一种 "look-ahead" 方法来寻找高阶扩展, 并给出了枚举所有 minimal hitting sets 的算法. 最后, 文章探讨了将运行时间进一步降至 \(\textsf{poly}(m) \cdot n^{k+O(1)}\) 的可能性, 并指出这等价于组合算法和枚举领域的若干突破.

others

A mixed-frequency approach for exchange rates predictions

Raffaele Mattera et al.

stat.AP cs.LG

本文提出了一种基于mixed frequency models的方法来预测汇率, 旨在解决因temporal aggregation导致的信息缺失问题. 作者通过CAD/USD汇率预测的实例, 展示了该方法相较于其他方法的有效性.

Can LLM Aid in Solving Constraints with Inductive Definitions?

Weizhi Feng et al.

cs.LO cs.AI

本文提出了一种结合大型语言模型(LLM)与约束求解器的神经符号方法, 用于辅助求解包含归纳定义(inductive definitions)的约束问题. 该方法通过LLM迭代生成辅助引理(conjectures), 并由求解器验证其有效性, 从而提升了现有SMT/CHC求解器在相关任务上的性能.

Exploring Human-in-the-Loop Themes in AI Application Development: An Empirical Thematic Analysis

Parm Suksakul et al.

cs.HC cs.AI cs.CY

本文通过回顾性日记研究和专家访谈, 对AI应用开发中的人机交互主题进行了实证分析. 研究识别出四个核心主题, 为后续的人机协作框架设计提供了经验性输入.

An Embodied Companion for Visual Storytelling

Patrick Tresset, Markus Wulfmeier

cs.HC cs.AI cs.GR cs.RO

本文介绍了一个名为Companion的艺术装置, 它结合了绘图机器人和大型语言模型(LLMs), 旨在促进人机协同创作. 该系统通过语音和草图进行双向交互, 将机器人从被动执行者转变为能够共同进行视觉叙事的创造性伙伴.

From Toil to Thought: Designing for Strategic Exploration and Responsible AI in Systematic Literature Reviews

Runlong Ye et al.

cs.HC cs.AI

本文通过设计研究识别了系统性文献综述(SLR)中的关键摩擦点, 并开发了一个名为ARC的设计探针来应对这些挑战. 该系统旨在通过集成环境、透明搜索和可验证的AI辅助, 将研究人员从繁重的管理任务转向战略性的探索.

Information-Theoretic Privacy Control for Sequential Multi-Agent LLM Systems

Sadia Asif, Mohammad Mohammadi Amiri

cs.MA cs.CR cs.LG

本文研究了多智能体LLM系统中的隐私泄露问题, 提出了一个基于互信息(Mutual Information)的理论框架来分析序列化执行中的信息泄露, 并设计了一种隐私正则化训练方法来控制系统级的信息流.

Molecular Representations for AI in Chemistry and Materials Science: An NLP Perspective

Sanjanasri JP et al.

physics.chem-ph cs.AI cs.CE

本文从自然语言处理(NLP)视角，综述了化学与材料科学中用于人工智能的分子表示方法。文章讨论了多种流行的数字化分子表示及其在化学信息学中的AI应用，旨在为跨领域研究者提供参考。

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Kin Wai Lau et al.

cs.MM cs.AI cs.CL cs.CV cs.SD +1

本文提出了一种名为Omni-C的单一稠密Transformer编码器, 用于处理图像, 音频和文本等多种模态. 该方法通过在大规模非对齐数据上进行单模态对比预训练来学习共享表示, 避免了混合专家(MoE)架构带来的参数膨胀和路由开销, 从而实现了高效的多模态推理.

Towards Neural Graph Data Management

Yufei Li et al.

cs.DB cs.AI

本文提出了一个名为NGDBench的基准测试, 用于评估神经网络模型在图数据库上的能力. 该基准支持完整的Cypher查询语言, 并包含噪声注入和动态数据操作, 测试发现现有LLM和RAG方法在结构化推理等方面存在显著不足.

On the Reliability of AI Methods in Drug Discovery: Evaluation of Boltz-2 for Structure and Binding Affinity Prediction

Shunzhou Wan et al.

physics.chem-ph cs.AI

本文评估了AI药物发现工具Boltz-2在预测蛋白质-配体结构和结合亲和力方面的可靠性。通过与基于物理的精确方法比较，发现其预测结果在能量分辨率和结构收敛性上存在显著不足。

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Yuewen Huang et al.

eess.IV cs.CV cs.LG

本文提出了一种用于预测儿童狼疮性肾炎预后的多模态计算病理学框架. 该框架结合了临床数据与病理图像, 通过引入临床注入Transformer和域适应MAE等创新方法, 在特定数据集上取得了较高的预测准确率.

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Jean-Daniel Fekete et al.

cs.DB cs.AI cs.ET cs.GR cs.MM

本文探讨了AI时代下人机交互、人-数据交互及可视化分析面临的挑战与机遇. 文章分析了大规模异构数据与基础模型带来的不确定性等问题, 并指出了未来构建以人为中心的交互式数据分析系统的研究方向.

An intuitive rearranging of the Yates covariance decomposition for probabilistic verification of forecasts with the Brier score

Bruno Hebling Vieira

stat.ME cs.LG stat.AP

本文对Brier score的Yates协方差分解进行了直观的重排, 将其分解为三个独立的非负项. 这种形式清晰地揭示了完美预测所需满足的方差、相关性和均值匹配条件.

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Jiaao Chen et al.

cs.SE cs.AI cs.CL

本文介绍了一个名为EigenData的自进化多智能体平台，用于自动化函数调用数据的合成、审计与修复。该平台通过协调多个专用智能体来生成和验证数据，并应用于基准测试的审计与改进。

Model Change for Description Logic Concepts

Ana Ozaki, Jandson S. Ribeiro

cs.LO cs.AI

本文研究了在描述逻辑(description logic)中基于模型修改概念的问题, 提出了模型变更(model change)的框架, 并区分了驱逐(eviction), 接纳(reception)和修正(revision)三种操作. 作者形式化地定义了修正操作, 并论证了它不能简单地归结为驱逐与接纳的组合, 同时为EL和ALC逻辑中的概念变更提供了可计算性方面的正反结果.

Learning Optimal Distributionally Robust Individualized Treatment Rules Integrating Multi-Source Data

Wenhai Cui, Wen Su, Xingqiu Zhao

stat.ML cs.LG

本文提出了一种基于先验信息的分布鲁棒个性化治疗规则(PDRO-ITR), 用于整合多源数据以应对后验偏移(posterior shift)问题. 该方法通过最大化最坏情况下的策略价值来保证鲁棒性, 并提供了理论风险界和自适应调参程序.

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Francesco Massafra et al.

q-bio.GN cs.LG

本文应用机器学习流程分析了多发性硬化症的转录组数据, 结合了 bulk 和 single-cell RNA 测序数据. 通过 XGBoost 分类和 SHAP 可解释性分析, 识别了与疾病相关的关键基因和通路, 为理解其分子机制提供了新的假设和潜在生物标志物.

PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions

Arnau Boix-Granell et al.

cs.RO cs.AI

本文提出了一种名为PRISM的指令条件精炼方法, 用于机器人模仿策略. 该方法将Imitation Learning和Reinforcement Learning结合, 通过人类指令和反馈来精炼通用任务策略, 使其适应新目标或约束, 并在模拟拾放任务中展示了其有效性.

Prediction-Powered Conditional Inference

Yang Sui et al.

stat.ML cs.LG

本文提出了一种结合 localization 和 prediction-based variance reduction 的方法, 用于在 labeled data 稀缺、unlabeled covariates 丰富且有 black-box predictor 的情况下, 对 conditional functionals (如 conditional mean) 进行统计推断. 该方法通过引入一个基于 reproducing kernel 的 localization 方法, 将目标 conditional moment 重新表述为加权的 unconditional moment, 并利用机器学习预测器进行方差缩减, 从而构建 prediction-powered estimator 和 confidence interval.

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

Nikos Chazaridis et al.

cs.SD cs.LG

本文提出了一种结合Koopman operator learning与instance normalization的structured autoencoder, 用于从语音中解耦说话人特征与语义内容. 该方法在无需文本监督的情况下, 以较少的参数量实现了有竞争力的说话人验证性能, 并展示了表征的鲁棒性.

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Bowei Xia et al.

cs.SE cs.AI

本文提出了一个名为Tool-Genesis的基准测试，用于评估语言智能体从抽象任务需求中自主创建和使用工具的能力。该基准旨在诊断智能体在接口合规性、功能正确性等方面的表现，并发现现有模型在一次性生成精确工具方面存在困难。

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Xusheng Luo, Changliu Liu

cs.CV cs.LG cs.RO

本文针对基于heatmap的关键点检测器, 提出了首个耦合鲁棒性验证框架. 该方法通过MILP将可达heatmap集合与联合偏差约束相结合, 为所有关键点的集体行为提供了严格的鲁棒性保证.

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Mohammad Sadil Khan et al.

cs.CV cs.AI

本文提出了一种名为DreamCAD的多模态生成框架, 能够从点云监督直接生成可编辑的BReps, 而无需CAD特定的标注. 该方法通过将BRep表示为参数化曲面片并使用可微分细分方法生成网格, 实现了在大型3D数据集上的训练, 并同时发布了目前最大的CAD描述数据集CADCap-1M.

Behavior-dLDS: A decomposed linear dynamical systems model for neural activity partially constrained by behavior

Eva Yezerets et al.

q-bio.NC cs.LG stat.AP stat.ML

本文提出了一个名为behavior-decomposed linear dynamical systems (b-dLDS)的模型，用于从大规模神经记录中分离与行为相关的动态和内部计算。该模型在模拟数据和斑马鱼后脑的实际记录中进行了验证，展示了其解耦不同神经子系统的能力。

RACAS: Controlling Diverse Robots With a Single Agentic System

Dylan R. Ashley et al.

cs.RO cs.AI cs.CL cs.LG cs.MA

本文提出了一种名为RACAS的机器人控制架构, 它利用基于LLM/VLM的模块通过自然语言进行通信, 实现对不同机器人的统一控制. 该方法仅需自然语言描述的机器人规格和任务定义, 无需针对新平台重新训练, 并在多种异构机器人平台上进行了验证.

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Lei Tong et al.

cs.CV cs.AI

本文提出了一种名为ABRA的方法来处理细胞成像数据中的批次效应问题, 将其视为Domain Generalization问题. 该方法通过对抗性优化合成最坏情况的批次扰动, 并在大规模基准测试中取得了先进的性能.

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

Trung Tien Dong et al.

cs.CV cs.AI

本文提出了一种用于多模态3D检测的后融合特征稳定器(PFS). 该模块作用于现有检测器的中间BEV特征, 通过稳定特征统计和自适应残差校正来提升模型在传感器故障或域偏移下的鲁棒性, 且无需修改原检测器架构.

Making Reconstruction FID Predictive of Diffusion Generation FID

Tongda Xu et al.

cs.CV cs.LG

本文提出了一种称为插值FID (iFID) 的新指标，用于评估潜在扩散模型的生成质量。该指标通过插值数据点在潜在空间中的最近邻来构建样本，并证明其与生成FID (gFID) 具有强相关性，而传统的重建FID (rFID) 则相关性较弱。

Space-efficient B-tree Implementation for Memory-Constrained Flash Embedded Devices

Nadir Ould-Khessal, Scott Fazackerley, Ramon Lawrence

cs.DB cs.DS

本文针对内存受限的嵌入式设备, 开发并评估了多种B-tree变体. 实验表明, 即使是最小的设备也能进行高效的B-tree索引, 并且使用针对存储的优化能带来显著的性能优势.

Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search

Imen Mahdi et al.

cs.RO cs.AI

本文提出了一种基于3D scene graph进行开放世界交互式物体搜索的方法SCOUT, 它通过离线知识蒸馏从LLM中提取结构化关系知识, 并利用关系启发式(如房间-物体包含和物体共现)为场景元素分配效用分数. 该方法在仿真和真实世界实验中均表现出优于基线方法的性能, 同时保持了计算效率.

The DSA's Blind Spot: Algorithmic Audit of Advertising and Minor Profiling on TikTok

Sara Solarova et al.

cs.CY cs.AI cs.IR cs.SI

本文通过算法审计研究了TikTok平台上的广告与未成年人画像问题. 研究发现, 尽管平台在形式上遵守了相关法规, 但未披露的商业内容仍存在显著的个性化推送现象.

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Wisdom Ikezogwo et al.

cs.CV cs.AI cs.LG

本文提出了一种名为Implicit Error Counting (IEC)的新方法, 用于在缺乏理想参考答案的强化学习后训练任务中构建奖励信号. 该方法通过枚举和加权输出中的错误, 而非匹配参考标准, 在虚拟试穿(VTO)任务上验证了其有效性, 并引入了新的评估指标CEC和基准MDressBench.

SecureRAG-RTL: A Retrieval-Augmented, Multi-Agent, Zero-Shot LLM-Driven Framework for Hardware Vulnerability Detection

Touseef Hasan et al.

cs.CR cs.AI

本文提出了一种基于检索增强生成(RAG)的多智能体框架SecureRAG-RTL, 用于硬件漏洞检测. 该方法通过整合领域知识检索来增强大型语言模型(LLM)在硬件安全验证中的性能, 在基准测试中显著提升了检测准确率.

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Burak Topcu et al.

cs.DC cs.LG cs.PF

本文分析了密集LLM推理部署中的并行化策略, 重点研究了Tensor Parallelism和Pipeline Parallelism对延迟与吞吐量权衡的影响. 通过实验评估, 文章为满足不同服务级别协议(SLA)的推理系统设计提供了参考.

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Zahra Karimaghaloo et al.

eess.IV cs.AI cs.CV

本文提出了一种基于DDPM的伪3D纵向修复框架, 用于处理脑部MRI中的病灶. 该方法利用多通道条件整合纵向信息, 并引入RAD机制进行区域感知生成, 在保持周围健康组织的同时修复病灶区域. 实验表明, 该模型在感知保真度和纵向稳定性上优于现有基线, 并显著提升了处理效率.

Autonomous Algorithm Discovery for Ptychography via Evolutionary LLM Reasoning

Xiangyu Yin et al.

cs.CE cs.AI cs.CL math.NA

本文提出了一个名为Ptychi-Evolve的自主框架，它结合了LLM驱动的代码生成与进化机制，用于为Ptychography成像技术自动发现新的正则化算法。实验表明，该方法发现的算法在多个数据集上超越了传统重建方法。

Random Dot Product Graphs as Dynamical Systems: Limitations and Opportunities

Giulio Valentino Dalla Riva

stat.ME cs.LG math.ST

本文探讨了从时序网络数据中学习其潜在演化微分方程的问题, 聚焦于 Random Dot Product Graph (RDPG) 模型. 研究识别了三个基本障碍: 潜在位置旋转带来的规范自由度, 概率矩阵流形结构带来的可实现性约束, 以及谱嵌入带来的轨迹恢复伪影. 作者建立了一个基于主纤维丛的几何框架来形式化这些障碍, 分析了可实现切空间的维数, 并揭示了规范对齐的几何困难与统计信息量之间的内在联系. 最后, 文章提出了一个可识别性原理, 并通过构造性方法展示了从含噪图序列中恢复向量场的可能性, 同时指出了有限样本下理论面临的挑战.

The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

Amirpasha Mozaffari et al.

physics.ao-ph cs.AI cs.LG

本文讨论了AI在地球系统科学中的快速应用及其对全球不平等的影响. 文章指出, AI发展轨迹可能加剧全球气候信息系统中的南北差距, 并提出了从模型中心转向数据中心的视角转变等建议.

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

Medina Andresel et al.

cs.LO cs.AI cs.SE

本文提出了一种结合紧凑语言模型与轻量级符号推理的方法, 用于从非形式化需求生成无冲突的线性时序逻辑(LTL)规范. 该方法通过约束生成与形式化一致性检查的迭代流程, 提升了资源受限模型生成正确形式化规约的能力.

Full Dynamic Range Sky-Modelling For Image Based Lighting

Ian J. Maquignaz

cs.CV cs.GR cs.LG

本文提出了一种名为Icarus的全天候天空模型, 用于生成高动态范围的环境贴图. 该模型通过深度学习技术, 能够根据用户条件生成包含精确太阳和云层位置的高质量天空图像, 以用于基于图像的照明.

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads

Jinman Wu et al.

cs.CR cs.AI

本文提出了一种针对开源大语言模型(OSLLMs)的注意力头级别越狱攻击框架SAHA. 该方法通过定位深层注意力头并进行边界感知扰动, 有效提升了攻击成功率, 揭示了模型更深层的安全漏洞.

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Jinman Wu et al.

cs.CR cs.AI cs.LG

本文提出了解耦安全假说(DSH), 认为大语言模型中的安全计算在识别轴(Knowing)和执行轴(Acting)两个独立子空间进行. 通过几何分析揭示了从早期层的对抗性纠缠到深层结构独立的演化过程, 并利用此解耦设计了拒绝擦除攻击(REA).

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

Donghoon Han, Eunhwan Park, Seunghyeon Seo

cs.CV cs.AI

本文提出了一种名为BM25-V的图像检索方法, 它将Okapi BM25文本检索评分机制应用于由Vision Transformer patch特征驱动的Sparse Auto-Encoder (SAE)所生成的稀疏视觉词激活上. 该方法利用视觉词频率的Zipfian分布特性, 通过BM25的IDF权重抑制常见词并强调稀有判别性词, 实现了高效的第一阶段检索, 为后续的稠密重排序提供了高召回率的候选集.

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Xisen Jin et al.

cs.CR cs.AI cs.CL

本文提出了一种名为proof-of-guardrail的系统, 用于验证AI agent生成响应时是否执行了特定的开源安全护栏(guardrail). 该系统利用可信执行环境(TEE)生成可离线验证的密码学证明, 并在OpenClaw agent上进行了实现与评估.

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

Nikolaos Al. Papadopoulos, Konstantinos Psannis

cs.MA cs.GT cs.LG

本文研究了多智能体协调困境, 引入了一个基于"Battle of the Exes"的Markov game作为测试平台. 作者提出了六种新的Alternation (ALT) 指标来评估时间协调质量, 发现传统指标可能严重误导对动态协调的理解.

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

Haoran Qiu et al.

cs.DC cs.AI

本文提出了一个名为StreamWise的自适应模块化服务系统，用于大规模实时处理多模态生成工作流。该系统通过动态管理生成质量、并行策略和资源调度，在异构硬件上优化了延迟、成本与质量之间的权衡。

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Shira Gur-Arieh, Angelina Wang, Sina Fazelpour

cs.CY cs.AI

本文讨论了大型语言模型在处理具有多重合法解释的模糊术语时出现的"模糊性坍缩"现象. 作者构建了一个关于认知风险的三层分类法, 并通过案例研究进行了说明, 最后提出了跨层的缓解原则.

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Salim Khazem

cs.CV cs.AI cs.LG

本文提出了一种名为MaCS的正则化框架, 通过联合施加logit空间的间隔(margin)惩罚和局部预测一致性监督, 旨在提升视觉模型的校准性(calibration)和鲁棒性(robustness). 该方法无需额外数据或架构改动, 在多个图像分类基准上有效降低了预期校准误差(ECE)和对常见损坏的敏感性.

Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

Srishti Palani, Vidya Setlur

cs.HC cs.AI

本文介绍了一个名为Lexara的用户中心评估工具包, 用于评估大型语言模型在对话式可视化分析中的表现. 该工具包通过整合用户研究获得的用例和标准, 提供了涵盖可视化质量和语言质量的评估指标, 并允许非编程用户进行实验设置和结果探索.

Evaluating LLM Alignment With Human Trust Models

Anushka Debnath et al.

cs.MA cs.AI

本文对大型语言模型内部关于信任概念的表征进行了白盒分析. 通过对比提示生成嵌入向量, 研究发现该模型对信任的内部表征与特定的人类社会认知模型最为接近.

Remote Sensing Image Classification Using Deep Ensemble Learning

Niful Islam et al.

cs.CV cs.AI

本文提出了一种用于遥感图像分类的融合模型, 通过集成多个结合了CNN和Vision Transformer的独立模型来提升性能. 该方法在多个数据集上取得了优于现有架构的准确率, 并强调了训练时计算资源的高效利用.

Computational Pathology in the Era of Emerging Foundation and Agentic AI -- International Expert Perspectives on Clinical Integration and Translational Readiness

Qian Da et al.

cs.CE cs.AI

本文综述了计算病理学领域在基础模型和智能体技术推动下的发展现状与临床转化挑战. 文章结合国际专家观点, 评估了当前AI系统的技术成熟度, 操作准备情况以及经济与监管环境, 指出了从实验室性能到实际临床部署所面临的主要障碍.

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

Junhyeok Lee et al.

eess.AS cs.AI

本文提出了一种自监督表示重建损失(SSRR)来改进神经音频编解码器的训练. 该方法旨在提升语音重建的清晰度并降低延迟, 同时减少了训练所需的计算资源.

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

Xiang Zhang et al.

cs.CV cs.GR cs.LG

本文提出了一种名为PixARMesh的自回归方法，用于从单张RGB图像直接重建完整的3D室内场景网格。该方法通过统一的模型联合预测物体布局和几何形状，在单次前向传播中生成连贯的网格。

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Schrasing Tong et al.

cs.CV cs.LG

本文针对概念瓶颈模型(CBMs)在图像分类中存在的公平性问题, 提出了三种偏差缓解技术. 这些方法旨在减少概念信息泄露并移除有偏概念, 实验表明其在公平性与性能的权衡上优于先前工作.

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

Tao Zhang et al.

cs.AR cs.AI

本文提出了一种名为LUMINA的LLM驱动GPU架构探索框架，用于高效探索面向AI工作负载的GPU设计空间。该方法通过自动化的瓶颈分析和规则合成，在庞大的设计空间中仅需少量样本即可找到性能与面积俱佳的设计方案。

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

Yuxin Xie et al.

cs.CV cs.AI

本文提出了一个用于复杂病灶分割的推理驱动框架CORE-Seg，它通过强化学习整合了语义推理与像素级分割。该方法在自建的数据集ComLesion-14K上取得了优于现有基准模型的分割性能。

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Feiran Li et al.

cs.CV cs.AI

本文提出了一种名为BlackMirror的黑盒后门检测框架，用于文本到图像模型。该方法通过分析生成图像中语义模式与指令的偏差及其稳定性来识别后门攻击，无需训练即可部署。

RAC: Rectified Flow Auto Coder

Sen Fang et al.

cs.CV cs.AI

本文提出了一种基于Rectified Flow的Rectified Flow Auto Coder (RAC)来替代传统VAE. 该模型通过多步解码和可修正的路径提升了生成质量, 并利用时间反转实现双向推理以减少参数量.

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Neelesh Gupta et al.

cs.AR cs.LG

本文提出了一种基于FPGA的持久状态数据流加速器, 用于解决Gated DeltaNet(GDN)线性注意力机制在解码时因状态反复访问HBM而导致的内存瓶颈问题. 该设计将循环状态持久保存在片上BRAM中, 并通过数据流流水线优化, 在特定FPGA上实现了比GPU参考设计更高的能效和吞吐.

Facial Expression Recognition Using Residual Masking Network

Luan Pham, Huynh Vu, Tuan Anh Tran

cs.CV cs.AI

本文提出了一种用于面部表情识别(FER)的Residual Masking Network. 该方法结合了Deep Residual Network和Unet-like架构, 通过一个masking机制来细化特征图, 在FER2013等数据集上取得了先进的准确率.

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Arun Joshi

cs.SE cs.AI

本文提出了一种系统化的可解释人工智能(XAI)方法, 用于分析基于大型语言模型(LLM)的编程代理的失败案例. 该方法通过一个包含故障分类法, 自动标注系统和混合解释生成器的框架, 将原始的代理执行轨迹转化为结构化, 可理解的解释, 并通过用户研究验证了其有效性.

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Jialuo He, Huangxun Chen

cs.CV cs.AI

本文提出了一种基于能量驱动的自适应视觉token剪枝方法E-AdaPrune, 用于提升视觉-语言模型(VLMs)的效率. 该方法通过分析视觉特征空间的奇异值谱(singular value spectrum)来自适应地确定每个输入图像的token预算, 在多个基准测试和模型上取得了性能提升.

Domain-Adaptive Model Merging across Disconnected Modes

Junming Liu et al.

cs.DC cs.AI

本文提出了一种无需数据的模型融合框架DMM, 用于处理高度异构的模型. 该方法通过合成伪数据和知识蒸馏, 在保持稳定性的同时整合了来自不同域模型的知识.

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Siyuan Yang et al.

cs.CV cs.AI

本文提出了一种名为Skeleton-to-Image Encoding (S2I)的新表示方法, 将3D人体骨架序列转换为类图像数据. 该方法使得能够直接利用大规模视觉预训练模型进行骨架表示学习, 并在多个数据集上验证了其有效性.

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Jiayang Sun et al.

cs.CV cs.AI cs.CL

本文提出了一种名为ProCap的动态过程建模框架,用于图像变化描述任务. 该框架通过两阶段设计, 首先训练一个过程编码器从关键帧序列中学习潜在的变化动态, 然后将其集成到编码器-解码器结构中, 利用可学习的过程查询来生成描述文本.

Technical Report: Automated Optical Inspection of Surgical Instruments

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain

cs.CV cs.AI eess.IV

本文探讨了利用深度学习模型进行手术器械自动光学检测的方法, 并基于一个包含4,414张高分辨率图像的新数据集分析了巴基斯坦制造器械的常见缺陷. 报告旨在为制造商和医疗专业人员提供一种通过自动化工具提升质量保证水平的资源.

TADPO: Reinforcement Learning Goes Off-road

Zhouchonghao Wu et al.

cs.RO cs.AI cs.LG

本文提出了一种名为TADPO的新型policy gradient方法，用于解决长视野、低奖励信号的越野自动驾驶问题。该方法基于PPO进行扩展，并展示了在仿真和真实车辆上的零样本迁移性能。

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Zhi Lei et al.

cs.CV cs.AI

本文提出了一种名为MM-ISTS的多模态框架，用于不规则采样时间序列的预测。该框架结合了视觉-文本大语言模型，通过两阶段编码机制整合了时间序列、图像和文本信息，旨在提升对上下文语义和细粒度时间模式的学习能力。

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Ninghao Zhang et al.

cs.RO cs.AI cs.CV

本文针对Vision-Language-Action (VLA) 模型在指令与场景矛盾时仍执行视觉上合理动作的“语言盲视”问题，提出了一个诊断基准ICBench和一种无需训练的推理时注意力重校准方法IGAR。该方法能有效减少模型在矛盾指令下的错误执行，并在真实机器人平台上得到验证。

Demystifying KAN for Vision Tasks: The RepKAN Approach

Minjong Cheon

cs.CV cs.AI

本文提出了一种名为RepKAN的新型网络架构，用于遥感图像分类任务。它结合了CNN的结构效率与KAN的非线性表示能力，旨在提供可解释的模型推理。

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Nikos Theodoridis et al.

cs.CV cs.AI

本文通过分析轻量级Vision-Language Models (VLMs)的中间激活，研究了其在自动驾驶相关视觉概念上的编码能力。作者发现，某些空间视觉概念仅被隐式编码，并识别了模型在简单视觉任务上的两种失败模式。

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Soumya Mazumdar, Vineet Kumar Rakesh

cs.CV cs.AI cs.LG cs.SD

本文提出了一种名为TempoSyncDiff的潜在扩散框架，用于低延迟的音频驱动说话头生成。该方法通过师生蒸馏和时序正则化等技术，旨在减少推理延迟并提高生成视频的时序稳定性。

Text-Driven Emotionally Continuous Talking Face Generation

Hao Yang et al.

cs.CV cs.AI

本文提出了一项名为Emotionally Continuous Talking Face Generation (EC-TFG)的新任务，旨在根据带有变化情绪的文本描述生成表情连续变化的人脸说话视频。作者为此设计了一个名为TIE-TFG的定制模型，通过Temporal-Intensive Emotion Fluctuation Modeling来管理动态情绪变化。实验表明该方法能生成平滑的情绪过渡并保持高质量的视觉效果。

Lifelong Embodied Navigation Learning

Xudong Wang et al.

cs.RO cs.AI

本文提出了一个名为Uni-Walker的终身学习框架，用于解决具身导航智能体在学习连续任务时的灾难性遗忘问题。该框架通过Decoder Extension LoRA (DE-LoRA)将导航知识解耦为任务共享和任务特定部分，并设计了相应的知识继承、专家协同激活和子空间正交约束等策略来分别学习这两类知识。实验表明该方法能有效构建具有终身学习能力的通用导航agent。

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng

eess.AS cs.AI eess.SP

本文提出了一种用于流式说话人匿名化(SA)的改进方法, 旨在更好地保留语音中的情感内容. 该方法通过对中性情感语音对进行监督微调, 并结合声学token隐藏状态的帧级情感蒸馏, 在保持低延迟和强隐私保护的同时, 显著提升了情感识别的准确率.

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

Hao Yang et al.

cs.CV cs.CL

本文提出了一种专门处理深度图像的多模态大语言模型DeepSight, 通过构建新的深度图像-文本对数据集和指令数据集, 并改进视觉编码器来更好地捕捉深度信息. 实验表明该模型在深度感知和相关下游任务上表现优异.

A Hazard-Informed Data Pipeline for Robotics Physical Safety

Alexei Odinokov, Rostislav Yavorskiy

cs.RO cs.AI

本文提出了一种基于结构化资产声明、系统化漏洞枚举和危险驱动合成数据生成的机器人物理安全框架. 该方法旨在连接传统风险工程与现代机器学习流程, 以支持基于形式化危险本体论的安全边界学习.

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Bohai Gu et al.

cs.CV cs.AI

本文提出了一个名为Place-it-R1的端到端框架, 用于视频对象插入. 该框架利用多模态大语言模型(MLLM)的思维链(CoT)推理能力来协调视频扩散模型, 旨在实现物理上一致的编辑效果.

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Rohit Saxena, Alessandro Suglia, Pasquale Minervini

cs.CV cs.AI

本文提出了一个名为VLM-RobustBench的综合性基准测试，用于评估vision-language models (VLMs) 在多种图像失真情况下的鲁棒性。研究涵盖了49种扰动类型，并在两个基准上测试了四个模型家族，发现模型对空间扰动尤为敏感。

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Yifan Peng et al.

cs.DB cs.IR cs.LG

本文提出了一种名为OMEGA的K-generalizable learned top-K搜索方法，旨在高效处理现实世界中的multi-K向量查询。该方法通过基于轨迹的特征训练一个基础模型，并采用动态精炼过程来预测不同K值，从而在保持高准确率的同时显著降低了预处理成本。

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Ajinkya Kulkarni et al.

cs.SD cs.AI cs.CL

本文通过构建RAPTOR检测器，对HuBERT和WavLM等紧凑型SSL（自监督学习）音频模型在深度伪造检测中的表现进行了对照研究。研究发现，多语言预训练是跨域鲁棒性的关键，并且模型在扰动下的校准稳定性存在差异。

Reflective Flow Sampling Enhancement

Zikai Zhou et al.

cs.CV cs.AI

本文提出了一种专为flow models设计的推理增强框架RF-Sampling. 该方法通过结合文本表示与flow inversion来提升生成质量与文本对齐度, 并在FLUX等模型上验证了有效性.

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Claire Roman, Philippe Meyer

cs.CV cs.AI cs.CL cs.LG

本文提出了一种用于文字系统相似性学习的两阶段框架. 该方法首先在有标签的构造字母表上进行对比学习, 然后通过师生蒸馏将知识迁移到无标签的历史文字上. 实验表明该框架能实现有效的 few-shot 字形识别和有意义的文字聚类.

Random Quadratic Form on a Sphere: Synchronization by Common Noise

Maximilian Engel, Anna Shalova

math.PR cs.LG math.DS

本文研究了一种定义在球面上的随机二次型梯度流模型. 该模型的一维动态是布朗运动, 但其两点运动展现出同步行为. 作者通过分析不变测度和随机吸引子, 从分布和路径两个层面刻画了这种同步现象.

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Hoseong Ahn et al.

cs.SD cs.AI eess.AS

本文提出了一种无需训练的对比解码框架 Whisper-CD, 用于缓解 Whisper 等大型编码器-解码器模型在长语音识别中的幻觉、重复和内容遗漏问题. 该方法通过对比干净音频的 logits 与三种声学扰动下的负 logits 来进行逐令牌解码, 在多个基准测试上显著降低了词错误率并提升了生成速度.

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

Xiaoxing You et al.

cs.CV cs.AI

本文提出了一种无需训练的多模态摘要框架 CoE, 它通过一个由 Hierarchical Event Graph 引导的 Chain-of-Events 进行结构化推理. 该方法在多个数据集上超越了现有的视频 CoT 基线, 展现了良好的鲁棒性和跨领域泛化能力.

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Mingyu Fan et al.

cs.CV cs.AI cs.RO

本文提出了一个名为TaPD的即插即用框架，用于处理自动驾驶中历史观测长度可变的轨迹预测问题。该框架通过渐进式知识蒸馏和时序回填模块，提升了模型在观测数据不足时的预测性能。

SPPCSO: Adaptive Penalized Estimation Method for High-Dimensional Correlated Data

Ying Hu, Hu Yang

stat.ML cs.LG

本文提出了一种名为SPPCSO的自适应惩罚估计方法，用于处理高维相关数据。该方法结合了主成分回归与\(L_{1}\)正则化，旨在提高模型在高噪声环境下的估计稳定性与变量选择准确性。

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

Zhuangzhuang Dai et al.

cs.CV cs.AI

本文提出了一个名为GazeMoE的端到端框架，用于从可见图像中估计人的注视目标。该方法利用冻结的基础视觉模型和Mixture-of-Experts模块来选择性整合多模态线索，并通过类别平衡损失和数据增强来提升性能。

Robust support vector model based on bounded asymmetric elastic net loss for binary classification

Haiyan Du, Hu Yang

stat.ML cs.LG

本文提出了一种新的有界非对称弹性网络损失函数\(L_{baen}\), 并将其与支持向量机(SVM)结合, 构建了BAEN-SVM模型. 该模型旨在提升对噪声数据的鲁棒性并解决传统SVM的几何不合理性问题, 并通过实验验证了其在噪声环境下的优越性能.

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez

cs.CV cs.AI

本文提出了一种用于视觉语言模型(VLMs)结构化剪枝的层次化偏好条件框架HiPP-Prune. 该方法将剪枝视为多目标下的条件资源分配问题, 通过整合视觉敏感度信号和优化多目标回报来平衡任务效用与幻觉鲁棒性.

Looking Through Glass Box

Alexis Kafantaris

cs.NE cs.AI cs.LG cs.SC

本文设计了一种模拟fuzzy cognitive map行为的神经网络FHM, 它通过Langevin dynamics来避免过拟合并进行逆向求解, 从而为用户提供修改标准. 文章在多个数据集上对该网络的性能进行了评估.

Learning Where the Physics Is: Probabilistic Adaptive Sampling for Stiff PDEs

Akshay Govind Srinivasan, Balaji Srinivasan

cs.CE cs.AI cs.LG math.AP

本文提出了一种名为GMM-PIELM的概率自适应采样框架，用于求解具有尖锐梯度的stiff PDEs。该方法通过加权EM算法，使径向基函数的中心自适应地集中在高误差区域，从而在保持ELM架构快速计算优势的同时，显著提高了求解精度。

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Susanne Schaub et al.

cs.CV cs.LG

本文提出了一种基于垂直score-based diffusion models的3D牙科植入物修复方法, 用于减少CBCT图像中的伪影. 该方法通过结合两个在不同平面上训练的2D扩散模型来建模投影序列的3D分布, 从而在投影域中进行一致性的修复, 最终生成高质量、伪影减少的3D CBCT图像.

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Walid Bousselham et al.

cs.CV cs.AI

本文提出了一种针对自回归视觉语言模型(VLMs)的动态可解释性方法DEX-AR. 该方法通过计算逐层梯度, 在逐令牌生成过程中生成突出关键图像区域的二维热力图, 以解释模型的决策过程.

Continual Adaptation for Pacific Indigenous Speech Recognition

Yang Xiao et al.

eess.AS cs.CL cs.SD

本文研究了将语音基础模型适应于低资源太平洋土著语言时面临的挑战. 实验评估了不同适应策略在连续学习多语言时的表现, 发现模型存在严重的表示漂移和稳定性问题.

Structured Exploration vs. Generative Flexibility: A Field Study Comparing Bandit and LLM Architectures for Personalised Health Behaviour Interventions

Dominik P. Hofer et al.

cs.HC cs.AI

本文通过一项为期四周的实地研究，比较了基于contextual bandit和LLM的架构在个性化健康行为干预中的效果。研究发现，LLM生成的消息被认为更有帮助，但bandit在BCT选择上的优化并未带来额外增益。

AI End-to-End Radiation Treatment Planning Under One Second

Simon Arberet et al.

eess.IV cs.AI cs.LG eess.SY physics.med-ph

本文提出了一种名为AIRT的端到端深度学习框架, 用于在1秒内从CT图像和结构轮廓直接生成可执行的VMAT前列腺放疗计划. 该方法通过可微剂量反馈, 对抗性注量图塑形和数据增强等技术提升了计划质量和鲁棒性, 并在超过10,000个病例上进行了训练, 其生成的计划在关键指标上不劣于传统商业软件.

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

Jiajun Zeng, Shadi Albarqouni

cs.CV cs.AI

本文提出了一个名为K-MaT的提示学习框架，用于解决医学视觉语言模型在跨模态迁移时性能下降的问题。该方法通过分解提示、锚定临床文本描述，并利用最优传输理论对齐不同模态的提示流形，实现了在无需低端模态训练图像情况下的知识迁移。

MoEless: Efficient MoE LLM Serving via Serverless Computing

Hanfei Yu et al.

cs.DC cs.AI cs.LG

本文提出了一种名为MoEless的serverless MoE LLM serving框架, 旨在解决MoE模型中expert负载不均衡导致的推理延迟和成本问题. 它通过轻量级预测器预估负载并优化expert的扩缩容与放置策略, 实验表明其能显著降低延迟和成本.

Dynamic Chunking Diffusion Transformer

Akash Haridas et al.

cs.CV cs.AI cs.LG

本文提出了一种动态分块扩散Transformer (DC-DiT), 通过一个可学习的编码-路由-解码框架, 在扩散过程中自适应地压缩图像token序列. 该方法在ImageNet 256x256生成任务上, 以更少的计算量取得了优于固定patchify的DiT模型的性能.

ESAA-Security: An Event-Sourced, Verifiable Architecture for Agent-Assisted Security Audits of AI-Generated Code

Elzo Brito dos Santos Filho

cs.CR cs.AI

本文提出了一种名为ESAA-Security的架构，用于对AI生成的代码进行安全审计。该架构将审计过程构建为一个受治理的执行管道，通过约束输出和事件溯源来确保审计的可追溯性与可复现性。

Kinetic-based regularization: Learning spatial derivatives and PDE applications

Abhisek Ganguly, Santosh Ansumali, Sauro Succi

math.NA cs.AI cs.LG

本文提出了一种基于kinetic的局部核回归方法, 用于从离散噪声数据中学习空间导数. 该方法具有二阶精度, 并展示了在求解PDE问题中的初步应用潜力.

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

Yonghuang Wu et al.

cs.CV cs.AI

本文针对文本引导的医学图像分割中提示词敏感性导致预测不一致的问题, 提出了一种提示词组感知的训练框架. 该方法通过质量引导的组正则化和logit-level一致性约束来提升模型在病理学图像核分割任务中的鲁棒性和泛化能力.

U6G XL-MIMO Radiomap Prediction: Multi-Config Dataset and Beam Map Approach

Xiaojie Li et al.

eess.SP cs.LG

本文构建了一个用于XL-MIMO无线电信道图预测的大规模多配置数据集，并提出了基于物理信息的beam map方法。该方法将阵列辐射特性与传播环境解耦，显著提升了模型在未见配置和环境下的泛化性能。

Physical Simulator In-the-Loop Video Generation

Lin Geng Foo et al.

cs.CV cs.AI cs.GR

本文提出了一种将物理模拟器集成到视频扩散过程中的新框架, 旨在提升生成视频的物理一致性. 该方法通过模拟器生成物理上合理的运动轨迹来引导视频生成, 并引入了一项纹理一致性优化技术.

A Reference Architecture of Reinforcement Learning Frameworks

Xiaoran Liu, Istvan David

cs.SE cs.AI cs.LG

本文提出了一种强化学习框架的参考架构, 通过分析现有框架识别出通用的组件和关系, 并展示了其在重构典型模式中的应用.

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Parhom Esmaeili et al.

cs.CV cs.AI cs.LG

本文提出了一种用于医学图像交互式分割的持续低参数适应方法 CLoPA. 该方法通过在标注缓存上微调少量参数, 无需改变推理流程即可将模型性能快速提升至专家水平.

Certified and accurate computation of function space norms of deep neural networks

Johannes Gründler, Moritz Maibaum, Philipp Petersen

math.NA cs.LG stat.ML

本文提出了一种结合区间算术和自适应求积的框架, 用于计算深度神经网络的函数空间范数(如\(L^p\), \(W^{1,p}\), \(W^{2,p}\)范数)的经过认证的上下界. 该方法通过处理网络结构本身, 而非仅将其视为黑箱, 为偏微分方程(PDE)求解中神经网络方法的误差控制提供了可靠的计算工具.

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Changsong Liu et al.

cs.SD cs.AI

本文提出了一种韵律边界感知的后训练策略, 用于改进基于LLM的流式TTS系统. 该方法通过滑动窗口提示和有限前瞻来学习在内容边界处提前停止, 从而在流式文本输入下改善韵律自然度并防止长文本崩溃.

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Yakov Pyotr Shkolnikov

cs.CV cs.AI

本文通过线性探针分析发现, 视觉语言模型(VLMs)的冻结特征中编码了连续的几何信息, 但其文本输出无法有效表达这些信息. 研究还表明, 训练目标比模型架构对几何测量精度的影响更大, 并且自回归生成过程会损害几何保真度.

Quantum Diffusion Models: Score Reversal Is Not Free in Gaussian Dynamics

Ammar Fayad

quant-ph cs.LG math-ph

本文研究了基于扩散的量子生成模型中, 在 Gaussian Markov dynamics 下, 通过添加 score drift 来逆转噪声半群的方法. 作者发现, 对于 quantum-limited attenuator, 固定扩散的 Wigner-score 逆向漂移会违反完全正性条件, 任何保持完全正性的高斯修正都必须注入额外的扩散.

Semantics-Aware Caching for Concept Learning

Louis Mozart Kamdem Teyou, Caglar Demir, Axel-Cyrille Ngonga Ngomo

stat.ML cs.LG

本文提出了一种用于概念学习(concept learning)的语义感知缓存(semantics-aware caching)方法. 该方法通过一个支持包含关系(subsumption)的映射结构, 将概念(concept)与其实例(instance)集合关联起来, 利用精确集合操作(crisp set operations)来加速实例检索. 实验表明, 该方法能显著降低概念检索和学习过程的运行时间.

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

Yuanji Zhang et al.

cs.CV cs.AI cs.LG

本文提出了一种基于人工智能的系统, 用于从超声图像中检测胎儿口面裂. 该系统在超过45,000张图像上训练, 诊断性能与资深放射科医生相当, 并能作为辅助工具提升初级医生的诊断敏感性和专业知识发展.

Predicting Atomistic Transitions with Transformers

Henry Tischler et al.

cond-mat.mtrl-sci cs.LG

本文提出使用Transformer模型预测纳米团簇中的原子跃迁路径, 作为一种快速替代模型以降低传统模拟方法的高计算成本. 作者展示了如何评估预测的物理有效性, 以及如何通过微调输入数据生成多种不同的微观状态.

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

Gaia A. Bertolino et al.

cs.SD cs.AI

本文提出了一种用于呼吸音频问答的分层路由生成模型RAMoEA-QA。该模型通过两阶段条件专业化来处理音频和查询的异质性，在多个测试场景中表现出优于现有方法的性能。

LiveSense: A Real-Time Wi-Fi Sensing Platform for Range-Doppler on COTS Laptop

Jessica Sanson et al.

eess.SP cs.AI

本文介绍了一个名为LiveSense的实时Wi-Fi感知平台, 它利用商用笔记本电脑的Wi-Fi网卡实现了厘米级的Range-Doppler传感. 该平台能够提取同步的CSI数据, 进行实时处理, 并展示对距离, 微动和手势的检测能力.

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

Alejandra Perez et al.

cs.CV cs.AI

本文提出了一个用于外科手术推理的大规模视频问答数据集SUREON, 以及基于此训练的视觉语言模型. 该工作旨在利用外科教学视频中的专家解说, 为AI模型提供手术意图、风险评估等高级推理能力的训练信号.

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

Vishal Thengane et al.

cs.CV cs.LG

本文提出了一种用于3D点云增量少样本分割的框架SCOPE, 它通过利用训练场景背景中未标注的潜在新类别信息来增强原型表示. 该方法无需重新训练主干网络或增加参数, 在ScanNet和S3DIS数据集上取得了先进的性能.

Fly360: Omnidirectional Obstacle Avoidance within Drone View

Xiangkai Zhang et al.

cs.RO cs.AI

本文提出了一种用于全景无人机全向避障的Fly360方法。该方法采用两阶段感知-决策流程, 将全景RGB观测转换为深度图, 并使用轻量级策略网络输出速度指令。实验表明, 该方法在多种飞行任务中优于前向视野基线。

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

Thomas Monninger et al.

cs.CV cs.AI cs.LG cs.RO

本文提出了一种名为BEVLM的框架, 旨在将大型语言模型(LLMs)的语义理解能力与鸟瞰图(BEV)表示的空间一致性相结合, 以提升自动驾驶系统的性能. 该方法通过将BEV特征作为统一输入提供给LLM, 并反向将LLM的语义知识蒸馏到BEV表示中, 在多个驾驶任务上取得了性能提升.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others