bluearXiv-ai - 2026-04-02

📄 所有论文 ↑ 回顶部

cs.LG

Two-Stage Optimizer-Aware Online Data Selection for Large Language Models

Fangxin Wang et al.

cs.LG cs.AI cs.CL

本文提出了一种面向优化器的两阶段在线数据选择框架, 用于大型语言模型(Large Language Model, LLM)的微调. 该方法将在线选择视为在优化器状态下塑造下一次目标导向的更新, 并设计了一个先过滤后加权的两阶段算法, 实验表明其在相同数据预算下能提升收敛速度和下游任务性能.

Task-Centric Personalized Federated Fine-Tuning of Language Models

Gabriel U. Talasso et al.

cs.LG cs.AI

本文提出了一种名为FedRouter的个性化联邦学习方法, 旨在解决传统方法在任务泛化和客户端内多任务干扰方面的不足. 该方法通过基于聚类的机制为任务而非客户端构建专门的适配器模型, 并在实验中展现了更好的性能.

Evolution Strategies for Deep RL pretraining

Adrian Martínez et al.

cs.LG

本文比较了 Evolution Strategies (ES) 与 Deep Reinforcement Learning (DRL) 在不同难度任务（如 Flappy Bird, Breakout, MuJoCo）中的性能，并探讨了将 ES 用于 DRL 预训练的可能性。结果表明，ES 在复杂任务中作为预训练步骤并未带来显著的效率或稳定性提升。

Temporal Memory for Resource-Constrained Agents: Continual Learning via Stochastic Compress-Add-Smooth

Michael Chertkov

cs.LG cond-mat.stat-mech cs.AI eess.SY

本文提出了一种基于随机过程（Bridge Diffusion）的连续学习框架，通过Compress-Add-Smooth递归在固定内存预算下整合新经验。该方法避免了反向传播和存储数据，计算成本低，并分析了由时间压缩而非参数干扰引起的遗忘机制。

Perspective: Towards sustainable exploration of chemical spaces with machine learning

Leonardo Medrano Sandonas et al.

cs.LG cond-mat.mtrl-sci cs.AI

本文是一篇关于可持续化学空间探索的Perspective文章, 讨论了人工智能在分子与材料科学应用中日益增长的计算与数据需求所带来的可持续性挑战. 文章概述了从量子化学数据生成到自动化工作流程的资源考量, 并强调了提高效率的新兴策略, 如通用机器学习模型、多精度方法和主动学习等.

Empirical Validation of the Classification-Verification Dichotomy for AI Safety Gates

Arsenios Scrivens

cs.LG cs.AI stat.ML

本文通过实验验证了在AI系统迭代改进过程中, 基于分类器的安全门机制存在根本性局限. 研究展示了多种分类器在多个基准任务上均无法满足安全自我改进的双重条件, 而基于Lipschitz球验证的方法则能实现零误接受, 支持无界的参数空间遍历.

PASM: Population Adaptive Symbolic Mixture-of-Experts Model for Cross-location Hurricane Evacuation Decision Prediction

Xiao Qian, Shangjia Dong

cs.LG cs.CY

本文提出了一种用于跨区域飓风疏散决策预测的种群自适应符号混合专家模型(PASM). 该模型结合了大型语言模型引导的符号回归和混合专家架构, 旨在提高模型的可解释性和跨区域泛化能力.

Learning to Play Blackjack: A Curriculum Learning Perspective

Amirreza Alasti et al.

cs.LG cs.AI

本文提出了一种利用大型语言模型为强化学习智能体动态生成动作课程的新框架, 并将其应用于21点游戏. 实验表明, 该方法能有效提升智能体的胜率、降低爆牌率并显著加速训练过程.

Speeding Up Mixed-Integer Programming Solvers with Sparse Learning for Branching

Selin Bayramoğlu, George L Nemhauser, Nikolaos V Sahinidis

cs.LG math.OC

本文提出了一种基于稀疏学习的方法来近似计算 mixed-integer programming 求解器中计算代价高昂的 strong branching 分数. 该方法构建的模型参数远少于基于 graph neural network 的先进方法, 仅使用 CPU 即可实现比默认求解器和 GPU 加速的 GNN 更快的求解速度, 并且在小训练集上依然有效, 适合资源受限的环境.

Predicting Wave Reflection and Transmission in Heterogeneous Media via Fourier Operator-Based Transformer Modeling

Zhe Bai, Hans Johansen

cs.LG

本文提出了一种基于Fourier operator和transformer的机器学习代理模型, 用于预测一维Maxwell方程在异质介质中的波反射与传输. 该模型通过自回归学习物理和频率嵌入, 在测试中展现了较好的时间步进预测能力.

ParetoBandit: Budget-Paced Adaptive Routing for Non-Stationary LLM Serving

Annette Taberner-Miller

cs.LG cs.CL

本文提出了一种用于非平稳LLM服务场景的自适应路由系统ParetoBandit. 该系统基于成本感知的contextual bandits, 能够在线适应价格与质量变化, 并动态集成新模型, 同时确保预算约束.

Epileptic Seizure Detection in Separate Frequency Bands Using Feature Analysis and Graph Convolutional Neural Network (GCN) from Electroencephalogram (EEG) Signals

Ferdaus Anam Jibon et al.

cs.LG cs.AI cs.NE

本文提出了一种基于频率感知的癫痫发作检测框架, 通过将EEG信号分解到不同频带并提取特征, 然后使用图卷积神经网络(GCN)建模电极间的空间依赖关系. 在CHB-MIT数据集上的实验表明, 该方法在多个频带上取得了高检测精度, 并揭示了发作的频带特异性模式.

Sit-to-Stand Transitions Detection and Duration Measurement Using Smart Lacelock Sensor

Md Rafi Islam et al.

cs.LG cs.CV

本文提出了一种使用集成在鞋上的Smart Lacelock传感器来检测和测量老年人坐-站转换动作的方法。该方法结合了多种传感器信号和机器学习分类器，在实验中取得了较高的分类准确性和持续时间测量精度。

Lévy-Flow Models: Heavy-Tail-Aware Normalizing Flows for Financial Risk Management

Rachid Drissi

cs.LG

本文提出了一种名为Lévy-Flows的新型normalizing flow模型, 其核心是将基础分布从标准Gaussian替换为基于Lévy过程的Variance Gamma (VG)和Normal-Inverse Gaussian (NIG)分布. 该方法旨在更好地捕捉金融数据中的厚尾(heavy-tailed)特性, 并在实证中展示了在密度估计和风险度量(如VaR和Expected Shortfall)校准方面的改进.

QUEST: A robust attention formulation using query-modulated spherical attention

Hariprasath Govindarajan et al.

cs.LG cs.AI cs.CV

本文提出了一种新的注意力机制QUEST, 它通过将keys约束在一个超球面隐空间中来提高训练稳定性. 该方法在视觉等任务上表现出更好的性能和鲁棒性.

Offline Constrained RLHF with Multiple Preference Oracles

Brenden Latham, Mehrdad Moharrami

cs.LG

本文研究了具有多个偏好oracle的离线约束强化学习问题. 作者提出了一个基于KL正则化Lagrangian的对偶算法, 并提供了有限样本的性能保证.

Unsupervised 4D Flow MRI Velocity Enhancement and Unwrapping Using Divergence-Free Neural Networks

Javier Bisbal et al.

cs.LG

本文提出了一种无监督的Divergence and Aliasing-Free神经网络(DAF-FlowNet), 用于联合增强4D Flow MRI中的噪声速度场并校正相位包裹伪影. 该方法通过将速度场参数化为矢量势的旋度来强制满足质量守恒, 并在合成与患者数据上展示了其有效性.

Lead Zirconate Titanate Reservoir Computing for Classification of Written and Spoken Digits

Thomas Buckley et al.

cs.LG

本文利用未极化的钛酸锆铅(PZT)材料作为物理储层计算(Reservoir Computing)的基底, 对手写数字(MNIST)和语音数字(AudioMNIST)数据集进行分类. 实验表明, 该物理储层在手写数字分类上比逻辑回归基线有约2.4个百分点的提升, 但在语音数字分类上与基线表现相当.

Measuring the Representational Alignment of Neural Systems in Superposition

Sunny Liu et al.

cs.LG

本文指出, 在 superposition (叠加) 状态下工作的神经系统, 其内部表征的比较会因标准对齐度量(如 Representational Similarity Analysis, Centered Kernel Alignment)的失真而产生误导. 这些度量混淆了表征内容与表征方式, 可能导致特征重叠更少的系统显得更对齐. 作者主张, 比较此类系统需要提取并对齐底层的特征, 而非直接比较原始的神经活动混合.

Diversity-Aware Reverse Kullback-Leibler Divergence for Large Language Model Distillation

Hoang-Chau Luong, Dat Ba Tran, Lingwei Chen

cs.LG cs.AI

本文针对大语言模型蒸馏中Reverse Kullback-Leibler (RKL) divergence导致学生模型预测过度自信和尾部类别对齐不佳的问题，提出了Diversity-aware RKL (DRKL)方法。该方法通过修正梯度并加强非目标类别的监督，在多个数据集和模型上验证了其优于现有蒸馏目标的性能。

Neural Collapse Dynamics: Depth, Activation, Regularisation, and Feature Norm Threshold

Anamika Paul Rupa

cs.LG

本文研究了Neural Collapse (NC)现象的发生动力学，发现其发生与平均特征范数达到一个模型-数据集特定的临界值$fn^*$密切相关。该临界值在不同训练条件下保持稳定，其被超越的时刻可作为预测NC发生的实用指标。

MAC-Attention: a Match-Amend-Complete Scheme for Fast and Accurate Attention Computation

Jinghan Yao et al.

cs.LG cs.AI cs.DC

本文提出了一种名为MAC-Attention的注意力计算方案，旨在加速大语言模型的长上下文解码。该方法通过复用先前相似查询的注意力计算结果来减少计算和内存访问，从而在保持模型质量的同时显著提升推理速度。

Hierarchical Discrete Flow Matching for Graph Generation

Yoann Boget, Pablo Strasser, Alexandros Kalousis

cs.LG

本文提出了一种用于图生成的层次化离散流匹配框架, 旨在解决现有去噪模型计算成本高和生成迭代次数多的问题. 该方法通过减少需要评估的节点对数量和采用离散流匹配来提升效率.

Softmax gradient policy for variance minimization and risk-averse multi armed bandits

Gabriel Turinici

cs.LG cs.AI math.NA

本文针对风险厌恶的多臂老虎机问题, 提出了一种基于softmax参数化的梯度策略算法, 旨在最小化奖励的方差而非最大化期望奖励. 该算法通过使用两次独立的臂分布采样来构建目标函数的无偏估计, 并在自然条件下证明了其收敛性.

Informed Machine Learning with Knowledge Landmarks

Chuyi Dai et al.

cs.LG

本文提出了一种名为KD-ML的知识-数据机器学习新范式，将数值数据与以粒度知识地标形式表达的知识片段相结合。通过设计一个包含数据优化项和知识正则化项的增强损失函数，该方法在物理基准测试中表现优于纯数据驱动模型。

Hierarchical Apprenticeship Learning from Imperfect Demonstrations with Evolving Rewards

Md Mirajul Islam et al.

cs.LG cs.AI

本文提出了一种名为HALIDE的分层学徒学习方法, 用于从非完美且奖励函数演化的学生演示中学习. 该方法通过分层框架对演示质量进行排序和建模, 以区分瞬时错误与策略性次优, 从而更准确地预测学生的教学决策.

Learning to Shuffle: Block Reshuffling and Reversal Schemes for Stochastic Optimization

Lam M. Nguyen, Dzung T. Phan, Jayant Kalagnanam

cs.LG math.OC

本文提出了一种利用LLM引导的程序演化框架来发现有效的无放回SGD数据洗牌规则。该方法识别了块重排和配对反转两个核心结构，并分析了它们分别在降低方差和减少顺序敏感性方面的理论优势。

Autonomous Adaptive Solver Selection for Chemistry Integration via Reinforcement Learning

Eloghosa Ikponmwoba, Opeoluwa Owoyele

cs.LG

本文提出了一种基于强化学习的自适应求解器选择框架, 用于化学反应动力学中的 stiff ODE 积分问题. 该框架能在隐式 BDF 积分器 (CVODE) 和准稳态 (QSS) 求解器之间进行选择, 在保证精度的前提下显著提升了计算速度, 并展示了从零维到一维问题的泛化能力.

SYNTHONY: A Stress-Aware, Intent-Conditioned Agent for Deep Tabular Generative Models Selection

Hochan Son et al.

cs.LG stat.ML

本文提出了一个用于深度表格生成模型选择的框架SYNTHONY, 它通过压力剖析来量化数据集的分布困难度, 并基于此匹配生成器的校准能力库. 实验表明, 基于压力元特征的选择器在多种用户意图下, 其Top-1选择准确率显著优于零样本LLM选择器和随机基线.

SAGE: Subsurface AI-driven Geostatistical Extraction with proxy posterior

Huseyin Tuna Erdinc et al.

cs.LG physics.geo-ph stat.ML

本文提出了一种名为SAGE的框架, 用于从稀疏测井数据和偏移地震图像等不完整观测中生成统计一致的代理速度模型. 该方法学习了一个基于两种数据模态的代理后验分布, 能够在推理时仅依据地震图像生成全分辨率的速度场, 为地震成像和反演工作流程提供了一种可扩展且数据高效的途径.

Robust Multimodal Safety via Conditional Decoding

Anurag Kumar et al.

cs.LG cs.AI

本文提出了一种名为CASA的条件解码策略, 通过利用MLLMs的内部表示在生成响应前预测一个二元安全token, 并引入一个新颖的安全attention模块来增强模型检测恶意查询的能力. 该方法在多个基准测试中显著降低了跨模态和跨攻击类型的平均攻击成功率, 同时保持了在良性输入上的实用性.

The Persistent Vulnerability of Aligned AI Systems

Aengus Lynch

cs.LG cs.AI

本文探讨了AI系统在部署后可能存在的持续性安全漏洞. 通过多项实验, 作者展示了现有对齐技术在实际复杂任务中的脆弱性, 并提出了几种使相关问题变得可追踪和可测量的方法.

When Career Data Runs Out: Structured Feature Engineering and Signal Limits for Founder Success Prediction

Yagiz Ihlamur

cs.LG

本文针对创始人职业数据预测初创公司成功率的难题, 提出了一种结构化特征工程方法. 通过从原始JSON字段直接构建特征并结合规则层与XGBoost, 模型性能超越了零样本LLM基线, 并揭示了数据本身的信息瓶颈.

Is One Token All It Takes? Graph Pooling Tokens for LLM-based GraphQA

Ankit Grover et al.

cs.LG

本文研究了在基于LLM的GraphQA任务中, 通过多token pooling和全局attention机制来缓解图结构信息压缩为单个token所造成的信息瓶颈. 实验表明, 结合LoRA可以稳定特定的层次化投影方法, 使压缩后的表示性能媲美全图基线.

Deep Learning-Accelerated Surrogate Optimization for High-Dimensional Well Control in Stress-Sensitive Reservoirs

Mahammad Valiyev, Jodel Cornelio, Behnam Jafarpour

cs.LG

本文提出了一种基于深度学习的代理优化框架, 用于高维井控问题. 该方法通过问题导向的采样策略训练神经网络代理模型, 以近似耦合流动-地质力学模拟器的输入输出映射, 从而显著降低了计算成本.

GUIDE: Reinforcement Learning for Behavioral Action Support in Type 1 Diabetes

Saman Khamesian et al.

cs.LG

本文提出了一个名为GUIDE的强化学习决策支持框架, 用于为1型糖尿病患者提供行为建议以预防异常血糖事件. 该框架整合了患者特异性血糖预测器, 并在统一环境中支持离线和在线RL算法, 评估显示其能在提高血糖在目标范围内时间的同时保持较低的低血糖风险.

Gradient-Based Data Valuation Improves Curriculum Learning for Game-Theoretic Motion Planning

Shihao Li, Jiachen Li, Dongmei Chen

cs.LG eess.SY

本文提出了一种基于梯度的数据估值方法, 用于改进博弈论运动规划中的课程学习. 该方法通过TracIn梯度相似性评分来评估训练场景对验证损失减少的贡献, 并以此构建课程, 在nuPlan基准测试中取得了优于基于元数据启发式方法的效果.

Deep Networks Favor Simple Data

Weyl Lu, Chenjie Hao, Yubei Chen

cs.LG cs.AI

本文通过引入Jacobian-based estimators和autoregressive self-estimators，将密度估计与模型训练分离，研究了深度网络中的OOD异常现象。研究发现，无论模型架构或训练目标如何，网络都倾向于为复杂度更低的数据分配更高的估计密度。

A Cross-graph Tuning-free GNN Prompting Framework

Yaqi Chen et al.

cs.LG

本文提出了一种无需调参的跨图GNN提示框架CTP, 支持同质和异质图, 可直接部署于未见图数据. 实验表明其在少样本预测任务上优于现有方法.

G-Drift MIA: Membership Inference via Gradient-Induced Feature Drift in LLMs

Ravi Ranjan et al.

cs.LG cs.AI

本文提出了一种基于梯度诱导特征漂移的成员推理攻击方法 G-Drift MIA. 该方法通过单步梯度上升扰动样本, 并测量模型内部表示的变化来区分训练数据成员与非成员, 在多个基准测试中优于现有方法.

Convergence of Byzantine-Resilient Gradient Tracking via Probabilistic Edge Dropout

Amirhossein Dezhboro et al.

cs.LG cs.MA eess.SY

本文提出了一种名为GT-PD的分布式优化方法，用于应对网络中存在的Byzantine恶意代理。该方法结合了自中心投影和基于信任评分的概率性边丢弃机制，以在对抗性通信下保持梯度跟踪的收敛性。实验表明，其改进版本GT-PD-L在多种攻击下性能优于现有的坐标修剪均值方法。

Phase space integrity in neural network models of Hamiltonian dynamics: A Lagrangian descriptor approach

Abrari Noor Hasmi, Haralampos Hatzikirou, Hadi Susanto

cs.LG math.DS

本文提出使用 Lagrangian Descriptors (LDs) 作为诊断框架，用于评估哈密顿系统的神经网络模型。该方法将几何信息嵌入统计框架，通过两个典型系统的实验比较了不同物理约束架构与数据驱动方法的性能差异。

The Rashomon Effect for Visualizing High-Dimensional Data

Yiyang Sun et al.

cs.LG

本文提出了一个用于高维数据可视化的 Rashomon set 框架, 旨在利用降维过程中解的非唯一性来获得更强大和可信的表示. 通过引入 PCA-informed alignment, concept-alignment regularization 以及从集合中提取可信的 nearest-neighbor 关系等方法, 该框架能够生成更可解释、更鲁棒且与目标更一致的可视化结果.

Scheduling LLM Inference with Uncertainty-Aware Output Length Predictions

Haoyu Zheng et al.

cs.LG

本文提出了一种用于LLM推理调度的新方法, 通过将输出长度建模为分布而非单点估计来改进SJF调度. 该方法使用log-t分布拟合输出长度, 并设计了一个名为TIE的度量来替代SJF中的长度, 实验表明其在在线推理和离线生成任务中均能提升性能.

Towards Initialization-dependent and Non-vacuous Generalization Bounds for Overparameterized Shallow Neural Networks

Yunwen Lei, Yufeng Xie

cs.LG cs.AI

本文针对过参数化浅层神经网络的泛化问题, 提出了一种完全依赖于初始化的复杂度分析框架. 通过引入新的"peeling"技术处理初始化相关的约束, 得到了依赖于从初始化的路径范数且对网络宽度具有对数依赖性的泛化界, 并给出了紧致的下界.

A Decoupled Basis-Vector-Driven Generative Framework for Dynamic Multi-Objective Optimization

Yaoming Yang et al.

cs.LG

本文提出了一种解耦基向量驱动的生成框架(DB-GEN)用于动态多目标优化. 该框架通过离散小波变换分离进化轨迹, 利用稀疏字典学习可迁移基向量, 并采用代理辅助搜索来克服环境切换时的冷启动问题.

MOON3.0: Reasoning-aware Multimodal Representation Learning for E-commerce Product Understanding

Junxian Wu et al.

cs.LG cs.AI cs.CV cs.IR

本文提出了一种用于电商产品理解的多模态大语言模型MOON3.0, 它通过多模态融合、联合对比与强化学习框架以及细粒度残差增强模块来显式建模产品属性. 该方法在多个下游任务上取得了先进的零样本性能, 并发布了一个大规模多模态电商基准MBE3.0.

Lipschitz Dueling Bandits over Continuous Action Spaces

Mudit Sharma et al.

cs.LG cs.IR cs.MA

本文研究了具有Lipschitz结构的连续动作空间上的随机对决赌博机问题, 其中反馈是纯粹的比较性信息. 作者提出了一种基于轮次探索和自适应参考臂引导的递归区域消除算法, 并证明了其遗憾上界为 $\tilde O\left(T^{\frac{d_z+1}{d_z+2}}\right)$, 其中 $d_z$ 是近优区域的缩放维度.

MF-QAT: Multi-Format Quantization-Aware Training for Elastic Inference

Zifei Xu, Sayeh Sharify, Hesham Mostafa

cs.LG cs.CL

本文提出了一种多格式量化感知训练(Multi-Format QAT)方法, 使得单个模型能够适应多种量化格式. 该方法通过一个称为Slice-and-Scale的转换过程, 实现了在推理时无需重新训练即可动态调整精度, 为弹性推理提供了一种实用方案.

Learning Shared Representations for Multi-Task Linear Bandits

Jiabin Lin, Shana Moothedath

cs.LG

本文提出了一种用于多任务线性bandit问题的共享表示学习方法. 算法通过探索阶段收集数据, 利用spectral initialization估计共享的低秩模型, 并基于构建的置信集进行OFUL学习. 理论分析表明该方法获得了$\tilde{O}(\sqrt{drNT})$的累积遗憾, 优于独立处理任务的方法.

Learning from Many and Adapting to the Unknown in Open-set Test Streams

Xiao Zhang et al.

cs.LG cs.IT

本文提出了一种名为Synapse Consolidation (SyCo)的参数高效LLM适应方法, 灵感来源于果蝇的记忆更新机制. 该方法通过Rac1和MAPK通路更新low-rank adapters, 旨在在保留源知识的同时进行快速专业化适应. 作者还引入了Multi-source Open-set Adaptation (MOA) 设定来模拟具有多个源和持续出现任务的真实部署场景.

HabitatAgent: An End-to-End Multi-Agent System for Housing Consultation

Hongyang Yang et al.

cs.LG cs.AI cs.ET q-fin.CP q-fin.RM

本文提出了一个名为 HabitatAgent 的多智能体系统，用于端到端的住房咨询。该系统通过多个专门化的智能体角色协同工作，旨在提供比传统排名或推荐方法更可靠、可审计的决策支持。

Representation choice shapes the interpretation of protein conformational dynamics

Axel Giottonini, Thomas Lemmin

cs.LG q-bio.BM

本文探讨了蛋白质构象动力学分析中表示选择的影响, 并引入了新的几何感知表示方法. 研究开发了ManiProt库以系统比较不同表示, 结果表明单一表示无法完整描述动力学.

Predicting Dynamics of Ultra-Large Complex Systems by Inferring Governing Equations

Qi Shao et al.

cs.LG

本文提出了一种名为Sparse Identification Graph Neural Network (SIGN)的框架，用于从数据中推断大型网络系统的控制方程。该方法结合了符号发现的解释性和神经网络的可扩展性，并在多个基准系统和海面温度预测中展示了有效性。

A Survey of On-Policy Distillation for Large Language Models

Mingyang Song, Mao Zheng

cs.LG cs.CL

本文综述了用于大型语言模型的On-Policy Distillation方法. 它提出了一个统一的$f$-divergence框架, 并围绕反馈信号、教师访问方式和损失粒度三个维度对现有技术进行了系统梳理.

Chameleons do not Forget: Prompt-Based Online Continual Learning for Next Activity Prediction

Marwan Hassani, Tamara Verbeek, Sjoerd van Straten

cs.LG

本文提出了一种用于在线持续学习的提示方法CNAPwP，以缓解预测过程监控中的灾难性遗忘问题。该方法在包含循环概念漂移的数据集上进行了测试，并展示了其有效性。

Embedded Variational Neural Stochastic Differential Equations for Learning Heterogeneous Dynamics

Sandeep Kumar Samota, Reema Gupta, Snehashish Chakraverty

cs.LG math.DS

本文提出了一种Variational Neural Stochastic Differential Equation (V-NSDE)模型，用于学习具有异质性的时序数据。该模型结合了Neural SDEs和Variational Autoencoders (VAEs)，通过编码器-解码器结构及基于district embedding的漂移与扩散函数来捕捉不同区域的独特动态。实验表明，该模型能有效识别复杂模式并生成包含趋势与波动的现实结果。

Full-Gradient Successor Feature Representations

Ritish Shrirao, Aditya Priyadarshi, Raghuram Bharadwaj Diddigi

cs.LG

本文提出了一种名为FG-SFRQL的算法，通过最小化完整的均方Bellman误差来优化successor features，以解决传统半梯度方法在非线性函数逼近下可能不稳定的问题。该方法在离散和连续领域均表现出优于基线的样本效率和迁移性能。

Performance of Neural and Polynomial Operator Surrogates

Josephine Westermann et al.

cs.LG math.NA

本文系统比较了用于参数化偏微分方程求解的神经算子与多项式算子代理模型. 在参数扩散和超弹性问题上, 通过改变输入场的光谱衰减率$s$进行测试, 并基于计算成本与精度的帕累托前沿进行分析. 结果表明, 对于光滑输入($s \geq 2$)多项式方法数据效率更高, 而对于粗糙输入($s \leq 1$)Fourier神经算子收敛更快.

Learning to Hint for Reinforcement Learning

Yu Xia et al.

cs.LG cs.AI cs.CL

本文提出了Hint Learning for Reinforcement Learning (HiLL)框架, 通过联合训练一个hinter policy和一个reasoner policy来解决GRPO中advantage collapse的问题. 该方法能根据reasoner的当前错误在线生成hints, 并通过引入hint reliance概念来优化hint的迁移性, 从而提升无hint测试时的策略性能.

Exploring Silent Data Corruption as a Reliability Challenge in LLM Training

Anton Altenbernd, Philipp Wiesner, Odej Kao

cs.LG

本文通过受控的故障注入实验, 研究了间歇性 Silent Data Corruption (SDC) 对 LLM 预训练的影响. 实验表明, 局部硬件故障可能导致有害的梯度损坏, 作者并据此提出了一种轻量级的检测与缓解方法.

Spectral Compact Training: Pre-Training Large Language Models via Permanent Truncated SVD and Stiefel QR Retraction

Björn Roman Kohlberger

cs.LG cs.AI

本文提出了一种名为 Spectral Compact Training (SCT) 的新方法, 用于在消费级硬件上预训练大型语言模型. 该方法通过使用永久的截断 SVD 分解 $W = U \text{diag}(s) V^T$ 来替代稠密权重矩阵, 并结合 Stiefel 流形上的 QR 回缩 (retraction) 来更新因子, 从而在训练和推理过程中都无需重构完整矩阵, 显著降低了内存占用. 实验表明, 该方法能实现高达 199 倍的每层内存压缩, 并在不同秩 (rank) 的设置下都能收敛到相近的损失值.

BioCOMPASS: Integrating Biomarkers into Transformer-Based Immunotherapy Response Prediction

Sayed Hashim, Frank Soboczenski, Paul Cairns

cs.LG cs.AI

本文提出了一种名为BioCOMPASS的模型, 用于改进基于Transformer的免疫治疗反应预测. 该模型通过设计特定的损失组件来整合生物标志物和治疗信息, 旨在提升模型在不同患者队列间的泛化能力.

ActivityNarrated: An Open-Ended Narrative Paradigm for Wearable Human Activity Understanding

Lala Shakti Swarup Ray et al.

cs.LG

本文提出了一种用于可穿戴设备人类活动理解的开放式叙事建模框架. 该方法通过将传感器数据与自然语言描述对齐, 避免了传统封闭集分类的限制. 实验表明, 该框架在跨参与者评估中表现优于基线方法.

Thinking Wrong in Silence: Backdoor Attacks on Continuous Latent Reasoning

Swapnil Parekh

cs.LG cs.AI

本文提出了一种针对连续隐空间推理语言模型的"沉默"后门攻击方法 ThoughtSteer. 该方法通过扰动输入层的单个嵌入向量, 利用模型自身的多轮推理机制将扰动放大, 从而在保持正常任务性能的同时, 高成功率地劫持推理轨迹并输出攻击者指定的答案. 研究还发现, 即使模型输出错误答案, 其内部隐向量仍编码了正确答案, 表明对抗信息存在于整体的轨迹中而非单个向量.

Using predefined vector systems to speed up neural network multimillion class classification

Nikita Gabdullin, Ilya Androsov

cs.LG cs.CV

本文提出了一种利用预定义向量系统来加速神经网络超多类别分类的方法. 该方法通过将标签预测转化为在特定向量系统中搜索最近聚类中心的问题, 将复杂度从$O(n)$降低到$O(1)$, 从而显著提升了推理速度. 实验表明, 该方法在保持训练精度的同时, 能实现高达11.6倍的加速, 并具有预测新类别存在的潜力.

Scalable Pretraining of Large Mixture of Experts Language Models on Aurora Super Computer

Dharma Teja Vooturi et al.

cs.LG cs.AI cs.DC

本文介绍了在Aurora超级计算机上使用数千个GPU tile进行大规模语言模型预训练的工作. 团队开发了Optimus训练库, 并预训练了从10亿到2200亿参数的多个Mixture of Experts (MoE)模型, 展示了良好的计算扩展效率.

MIRANDA: MId-feature RANk-adversarial Domain Adaptation toward climate change-robust ecological forecasting with deep learning

Yuchang Jiang, Jan Dirk Wegner, Vivien Sainte Fare Garnot

cs.LG

本文提出了一种名为MIRANDA的领域自适应方法，用于提升深度学习模型在气候变化导致数据分布偏移下的植物物候预测鲁棒性。该方法通过在中层特征上施加基于排序的对抗性正则化，以处理连续时间域和标签偏移的挑战。

Routing-Free Mixture-of-Experts

Yilun Liu et al.

cs.LG cs.AI cs.CL

本文提出了一种无需集中式路由的Mixture-of-Experts (MoE)模型，称为Routing-Free MoE。该方法将激活功能封装在单个专家内部，并通过连续梯度流进行优化，同时引入了一个统一的自适应负载均衡框架。实验表明，该方法在可扩展性和鲁棒性上优于基线模型。

Cost-Penalized Fitness in FMA-Orchestrated Mixture of Experts: Experimental Evidence for Molecular Memory in Domain Adaptation

Martin Jaraiz

cs.LG

本文通过实验研究了在动态数据分布下, 使用成本惩罚适应度度量和专家线性宽限期, 使MoE系统通过专家多样化而非替换来积累领域专业知识. 实验结果显示, 当返回先前学习过的领域时, 系统恢复速度快了9-11倍, 且无需专家更替, 表现出一种"分子记忆"效应.

Optimal Brain Decomposition for Accurate LLM Low-Rank Approximation

Yuhang Li et al.

cs.LG

本文提出了一种名为OBD-LLM的模型权重低秩分解方法。该方法利用Hessian矩阵的二阶信息，通过Kronecker分解和双向白化操作，在模型空间中进行分解，相比仅考虑输入信息的SVD方法取得了更好的结果。

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

Zhanzhi Lou et al.

cs.LG cs.AI

本文提出了一个名为 Meta-TTL 的框架，用于优化语言智能体在测试时学习（TTL）过程中的适应策略。该方法将适应策略的发现构建为一个双层优化问题，并通过进化搜索在多样化的任务分布上进行迭代优化。实验表明，学习到的适应策略在分布内和分布外任务上均优于人工设计的基线方法。

Policy Improvement Reinforcement Learning

Huaiyang Wang et al.

cs.LG

本文提出了一种名为Policy Improvement Reinforcement Learning (PIRL)的新框架，用于改进大型语言模型的推理能力。该框架通过直接优化跨迭代的累积策略改进，取代了传统的代理奖励最大化目标。

Super-Resolving Coarse-Resolution Weather Forecasts With Flow Matching

Aymeric Delefosse, Anastase Charantonis, Dominique Béréziat

cs.LG cs.CV

本文提出了一种模块化框架, 通过将学习到的生成式超分辨率作为后处理步骤应用于粗分辨率预报轨迹, 从而将天气预报与空间分辨率解耦. 该方法在再分析数据上使用 flow matching 进行训练, 应用于全球中期预报, 并在保持大尺度结构的同时引入了物理一致的小尺度变率.

Fatigue-Aware Learning to Defer via Constrained Optimisation

Zheng Zhang et al.

cs.LG

本文提出了一种考虑人类疲劳的延迟学习框架FALCON, 通过将问题建模为Constrained Markov Decision Process (CMDP)来优化人机协作的准确性。该方法在模拟不同疲劳动态的基准测试中表现优于现有方法。

Event Embedding of Protein Networks : Compositional Learning of Biological Function

Antonin Sulc

cs.LG

本文研究了在蛋白质相互作用网络中, 通过强制序列嵌入具有严格的compositional structure, 是否能产生有意义的几何组织. 作者使用Event2Vec模型与DeepWalk基线进行比较, 发现compositional structure在pathway coherence和functional analogy等任务上表现更好.

Orthogonal Learner for Estimating Heterogeneous Long-Term Treatment Effects

Haorui Ma et al.

cs.LG stat.ML

本文提出了一种名为LT-O-learners的新方法, 用于估计异质性长期处理效应(HLTE). 该方法通过引入自定义的重叠权重来重新定位学习目标, 以处理治疗或长期结果观测中重叠有限的问题, 并证明了其具有Neyman正交性, 对干扰参数估计误差具有鲁棒性. 实验在合成和半合成基准上验证了其理论性质.

Generalization Bounds for Spectral GNNs via Fourier Domain Analysis

Vahan A. Martirosyan et al.

cs.LG

本文在 graph Fourier domain 中分析了 spectral GNNs, 将每层视为 element-wise frequency update. 通过证明 Gaussian complexity 在 Graph Fourier Transform 下不变, 作者推导了与数据、深度和多项式阶数相关的泛化界及稳定性估计.

WARP: Guaranteed Inner-Layer Repair of NLP Transformers

Hsin-Ling Hsu et al.

cs.LG cs.AI

本文提出了一个名为WARP的约束优化框架, 用于修复Transformer模型内部层的参数以抵御对抗性扰动. 该方法将修复问题表述为一个凸二次规划, 并在满足一阶近似条件下为每个样本提供分类正确性、参数保持性和鲁棒性半径的保证. 实验在多种编码器架构上验证了该框架的有效性.

Differentially Private Manifold Denoising

Jiaqi Wu, Yiqing Sun, Zhigang Yao

cs.LG cs.CR math.ST

本文提出了一种满足差分隐私的流形去噪框架, 允许在保护敏感参考数据集隐私的同时, 利用该数据集来校正非隐私的噪声查询点. 该方法通过迭代过程私有地估计局部几何, 并对查询点进行校正, 最终为参考数据提供形式化的差分隐私保证.

Flow-based Policy With Distributional Reinforcement Learning in Trajectory Optimization

Ruijie Hao et al.

cs.LG cs.AI

本文提出了一种结合flow-based policy与distributional reinforcement learning的算法FP-DRL. 该方法旨在解决传统强化学习中策略分布表达能力有限以及回报信息利用不充分的问题, 并在MuJoCo基准测试中取得了先进的性能.

EmbedPart: Embedding-Driven Graph Partitioning for Scalable Graph Neural Network Training

Nikolai Merkel et al.

cs.LG cs.DB cs.DC

本文提出了一种名为EmbedPart的图划分方法, 用于加速大规模图神经网络(GNN)的训练. 该方法通过利用GNN训练过程中产生的节点嵌入(embeddings)进行聚类来完成划分, 从而在保证划分质量的同时, 显著降低了划分开销并提升了分布式训练的效率.

Transfer learning for nonparametric Bayesian networks

Rafael Sojo, Pedro Larrañaga, Concha Bielza

cs.LG cs.AI

本文提出了两种用于数据稀缺情况下非参数贝叶斯网络估计的迁移学习方法. 通过定义特定指标来应对负迁移问题, 并在合成与真实数据集上验证了方法的可靠性.

Model-Based Learning of Near-Optimal Finite-Window Policies in POMDPs

Philip Jordan, Maryam Kamgarpour

cs.LG

本文研究了在表格型部分可观测马尔可夫决策过程（POMDPs）中，基于模型学习有限窗口策略的问题。作者提出了一种模型估计方法，并分析了其样本复杂度，最终结合值迭代得到近似最优的策略。

Fast and Accurate Probing of In-Training LLMs' Downstream Performances

Zhichen Liu et al.

cs.LG cs.AI

本文提出了一种用于在训练过程中快速评估大型语言模型下游性能的新范式. 该方法通过轻量级探针, 利用模型内部表征来预测其在具体任务上的表现, 显著降低了评估延迟.

Approximating Pareto Frontiers in Stochastic Multi-Objective Optimization via Hashing and Randomization

Jinzhao Li, Nan Jiang, Yexiang Xue

cs.LG cs.AI cs.LO

本文提出了一种名为XOR-SMOO的新算法，用于解决随机多目标优化问题。该算法通过查询SAT oracle，以高概率获得对Pareto前沿的常数因子近似。实验表明，该方法在真实世界问题上优于现有基线。

Reconsidering Dependency Networks from an Information Geometry Perspective

Kazuya Takabatake, Shotaro Akaho

cs.LG

本文从信息几何的视角重新审视了Dependency Networks. 作者将伪Gibbs采样的每一步解释为在全条件流形上的m-投影, 并基于此定义了全条件散度, 为其平稳分布的位置提供了一个理论上限. 论文还将结构与参数学习重新表述为可分解的优化问题, 并证明了模型分布随样本量增加而收敛到真实分布.

Toward Personalized Darts Training: A Data-Driven Framework Based on Skeleton-Based Biomechanical Analysis and Motion Modeling

Zhantao Chen et al.

cs.LG cs.CV

本文提出了一种基于无标记运动捕捉的数据驱动飞镖训练辅助系统. 该系统通过提取多个生物力学维度的特征, 构建了个性化的最优投掷轨迹模型和运动偏差诊断模型. 案例研究表明, 该系统能够识别特定运动缺陷并提供针对性建议, 实现了从统一标准到个人最优控制范围的评估转变.

Property-Level Flood Risk Assessment Using AI-Enabled Street-View Lowest Floor Elevation Extraction and ML Imputation Across Texas

Xiangpeng Li et al.

cs.LG

本文提出了一种结合AI街景图像分析和机器学习插补的三阶段流程, 用于在区域尺度上评估洪水风险. 该方法从街景图像中提取建筑物最低楼层高程(LFE)等关键参数, 并对缺失数据进行插补, 最终与洪水淹没模型结合, 估算财产级别的内部洪水深度和预期损失.

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Gleb Rodionov

cs.LG

本文研究了LLMs在复杂上下文环境中的推理行为变化. 发现当问题被置于冗长无关语境、多轮对话或复杂任务中时, 模型的推理轨迹会显著缩短, 并伴随自我验证等行为的减少.

Bridging the Simulation-to-Experiment Gap with Generative Models using Adversarial Distribution Alignment

Kai Nelson et al.

cs.LG cond-mat.mtrl-sci q-bio.BM

本文提出了一种名为Adversarial Distribution Alignment (ADA)的数据驱动分布对齐框架, 旨在弥合仿真与实验之间的差距. 该方法先在仿真数据上预训练生成模型, 然后利用对抗学习将其与部分观测的实验数据分布对齐, 并在合成与生物分子数据上进行了验证.

Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning

Cai Zhou et al.

cs.LG cs.AI cs.CL stat.AP stat.ML

本文提出了Online Reasoning Calibration (ORCA)框架，用于在测试时校准大型语言模型的推理采样过程。它结合了conformal prediction和test-time training，旨在提供分布偏移下的有效置信度估计，并在多个推理任务上展示了更高的效率。

NeuroDDAF: Neural Dynamic Diffusion-Advection Fields with Evidential Fusion for Air Quality Forecasting

Prasanjit Dey et al.

cs.LG

本文提出了一种名为NeuroDDAF的物理信息空气质量预测框架，它结合了神经表示学习与开放系统传输模型。该模型通过集成图注意力编码器、傅里叶域扩散-平流模块和证据融合机制，在多个城市数据集上取得了优于基准方法的预测性能，并提供了校准的不确定性估计。

Screening Is Enough

Ken M. Nakanishi

cs.LG cs.AI cs.CL

本文提出了一种名为Multiscreen的新语言模型架构, 其核心机制"screening"旨在解决标准softmax attention无法定义绝对query-key相关性的问题. 该机制通过显式阈值筛选相关键, 避免了全局竞争, 在多个实验中展现出参数效率、训练稳定性、长上下文处理能力和推理速度的提升.

CliffSearch: Structured Agentic Co-Evolution over Theory and Code for Scientific Algorithm Discovery

Youssef Mroueh et al.

cs.LG cs.AI

本文提出了一个名为CliffSearch的agentic evolutionary框架, 用于科学算法发现. 该框架将核心进化算子实现为LLM agents, 并强调理论+代码的结构化表示以及基于reviewer判断的筛选.

The Recipe Matters More Than the Kitchen:Mathematical Foundations of the AI Weather Prediction Pipeline

Piyush Garg et al.

cs.LG cs.AI physics.ao-ph

本文为AI天气预测提供了一个统一的理论框架, 将整个学习流程(架构、损失函数、训练策略、数据分布)而非仅架构纳入考量. 理论分析表明, 在当前规模下, 估计误差(依赖于损失函数和数据)主导了近似误差(依赖于架构), 并推导了MSE损失导致谱模糊以及模型系统性低估极端事件的界限. 实验在多个AI天气模型上验证了这些理论预测.

LAtent Phase Inference from Short time sequences using SHallow REcurrent Decoders (LAPIS-SHRED)

Yuxuan Bao, Xingyue Zhang, J. Nathan Kutz

cs.LG cs.AI cs.CV

本文提出了一种名为LAPIS-SHRED的模块化架构，用于从稀疏且时间受限的传感器观测中重建或预测完整的时空动力学。该方法通过预训练的SHRED模型将观测映射到结构化latent space，并利用时序模型在latent space中进行时间外推。

cs.AI

How Emotion Shapes the Behavior of LLMs and Agents: A Mechanistic Study

Moran Sun et al.

cs.AI cs.CL

本文提出了一个可解释的情感引导框架E-STEER, 用于研究情感信号对大型语言模型(LLM)和智能体行为的影响. 实验表明, 特定情感不仅能提升模型能力, 还能系统性地塑造智能体的多步行为.

One Panel Does Not Fit All: Case-Adaptive Multi-Agent Deliberation for Clinical Prediction

Yuxing Lu, Yushuhong Lin, Jason Zhang

cs.AI cs.CL cs.MA

本文提出了一种名为CAMP的临床预测方法, 通过一个attending-physician agent动态组建专家小组来处理病例的异质性. 该方法结合了三种投票机制和混合路由决策, 在减少计算消耗的同时提高了预测性能.

Open, Reliable, and Collective: A Community-Driven Framework for Tool-Using AI Agents

Hy Dang, Quang Dao, Meng Jiang

cs.AI cs.SE

本文提出了一个名为OpenTools的社区驱动框架, 旨在提升工具集成LLM的可靠性. 该框架通过标准化工具模式, 提供自动化测试套件和持续监控来评估工具, 并在实验中展示了任务性能的提升.

A Safety-Aware Role-Orchestrated Multi-Agent LLM Framework for Behavioral Health Communication Simulation

Ha Na Cho

cs.AI cs.MA

本文提出了一个安全感知、角色编排的多智能体LLM框架,用于模拟行为健康对话. 该框架通过分解对话职责到专门的智能体(如共情导向、行动导向和监督角色)并利用基于prompt的控制器进行协调与安全审核, 在结构质量、功能多样性和计算特性上优于单智能体基线.

Human-in-the-Loop Control of Objective Drift in LLM-Assisted Computer Science Education

Mark Dranias, Adam Whitley

cs.AI

本文探讨了在LLM辅助的计算机科学教育中, 通过引入human-in-the-loop控制来应对目标漂移问题. 作者提出了一种将规划与执行分离的课程框架, 并进行了实验设计的功效分析.

Improvisational Games as a Benchmark for Social Intelligence of AI Agents: The Case of Connections

Gaurav Rajesh Parikh, Angikar Ghosal

cs.AI cs.MA

本文提出将文字游戏 Connections 作为评估 AI 智能体社会智能的基准。该游戏要求智能体具备知识检索、总结和推断其他智能体认知状态的能力，从而测试其在受限环境中通过协作展现的社会意识。

Collaborative AI Agents and Critics for Fault Detection and Cause Analysis in Network Telemetry

Syed Eqbal Alam, Zhan Shu

cs.AI cs.MA

本文提出了一种用于多智能体联邦系统中AI agents与critics协同控制的算法框架. 该框架利用多时间尺度随机逼近技术, 在保证agents与critics成本函数私密性的前提下, 为系统平均活跃状态提供了收敛性保证. 并以网络遥测中的故障分析为例进行了验证.

Signals: Trajectory Sampling and Triage for Agentic Interactions

Shuguang Chen, Adil Hafeez, Salman Paracha

cs.AI cs.CL

本文提出了一种基于信号的轻量级框架,用于对基于大语言模型的智能体交互轨迹进行采样和筛选. 该方法通过计算交互过程中的廉价信号来识别信息量大的轨迹, 旨在为智能体系统的部署后优化提供实用的采样基础设施.

In harmony with gpt-oss

Borislav Mavrin

cs.AI cs.LG

本文通过逆向工程分析了GPT-OSS-20B模型对训练分布内工具的使用偏好, 并构建了一个原生Harmony代理框架来编码消息. 该方法首次独立复现了OpenAI公布的基准测试分数.

Decision-Centric Design for LLM Systems

Wei Sun

cs.AI cs.LG

本文提出了一个面向LLM系统的决策中心设计框架, 将控制决策从生成过程中显式分离出来. 该框架通过分离决策信号与行动策略, 提升了系统的可检查性和模块化改进能力.

Self-Routing: Parameter-Free Expert Routing from Hidden States

Jama Hussein Mohamud, Drew Wagner, Mirco Ravanelli

cs.AI

本文提出了一种名为 Self-Routing 的无参数路由机制，用于 Mixture-of-Experts (MoE) 模型。该方法直接利用 token 隐藏状态的特定子空间作为专家分配的依据，无需额外的可学习路由模块，并在语言建模和图像分类任务中保持了与标准学习路由器相当的竞争力。

Execution-Verified Reinforcement Learning for Optimization Modeling

Runda Guan et al.

cs.AI cs.CL

本文提出了一个名为EVOM的执行验证强化学习框架, 用于自动化优化建模. 该框架将数学规划求解器作为验证器, 通过生成-执行-反馈的闭环过程来训练模型, 无需过程监督即可实现跨求解器的泛化.

Towards Reliable Truth-Aligned Uncertainty Estimation in Large Language Models

Ponhvoan Srey et al.

cs.AI cs.CL

本文针对大语言模型不确定性估计指标的不稳定问题, 提出了Truth AnChoring (TAC)这一事后校准方法. 该方法通过将原始分数映射到与事实对齐的分数, 旨在提高不确定性估计的可靠性.

Logarithmic Scores, Power-Law Discoveries: Disentangling Measurement from Coverage in Agent-Based Evaluation

HyunJoon Jung, William Na

cs.AI cs.CL cs.HC cs.MA

本文通过实验研究了基于LLM的agent judges在评估对话AI时的可靠性。研究发现, 评估分数随评委数量呈对数增长, 而独特问题的发现则遵循幂律分布, 两者均呈现收益递减。

The Silicon Mirror: Dynamic Behavioral Gating for Anti-Sycophancy in LLM Agents

Harshee Jignesh Shah

cs.AI

本文提出了一个名为"The Silicon Mirror"的框架，旨在动态检测用户的说服策略并调整AI行为，以减少LLM中的奉承(sycophancy)现象。该框架通过行为访问控制、特质分类器和生成-批评循环等组件，在对抗性测试中显著降低了模型的奉承率。

Adaptive Parallel Monte Carlo Tree Search for Efficient Test-time Compute Scaling

Hongbeen Kim et al.

cs.AI

本文提出了一种自适应并行 Monte Carlo Tree Search (MCTS) 方法，旨在解决其在推理应用中导致的尾延迟问题。通过引入负向提前退出和自适应增强机制，该方法在保持推理精度的同时，显著降低了延迟并提升了吞吐量。

Does Unification Come at a Cost? Uni-SafeBench: A Safety Benchmark for Unified Multimodal Large Models

Zixiang Peng et al.

cs.AI cs.LG

本文提出了一个名为Uni-SafeBench的基准测试，用于评估统一多模态大模型(UMLMs)在多种任务下的整体安全性。研究发现，模型能力的统一过程可能会显著降低其内在安全性，并且开源UMLMs的安全性表现低于专注于单一任务（生成或理解）的模型。

BloClaw: An Omniscient, Multi-Modal Agentic Workspace for Next-Generation Scientific Discovery

Yao Qin et al.

cs.AI

本文介绍了一个名为BloClaw的多模态AI4S操作系统, 它通过XML-Regex双轨路由协议, 运行时状态拦截沙箱和状态驱动的动态视口UI等架构创新, 旨在解决当前AI科学家框架在工具调用, 执行环境和用户界面方面的基础设施脆弱性问题.

Ontology-Constrained Neural Reasoning in Enterprise Agentic Systems: A Neurosymbolic Architecture for Domain-Grounded AI Agents

Thanh Luong Tuan

cs.AI cs.CL cs.SE

本文提出了一种用于企业智能体的神经符号架构, 通过三层本体框架约束LLM的推理过程. 该架构在多个行业领域的实验中, 在准确性、合规性和角色一致性方面显著提升了智能体的性能.

Agent psychometrics: Task-level performance prediction in agentic coding benchmarks

Chris Ge et al.

cs.AI

本文提出了一个用于预测智能体在编程任务中表现的新框架. 该方法结合了Item Response Theory (IRT) 和从任务中提取的丰富特征, 能够预测未见过的基准测试或智能体组合的性能.

CircuitProbe: Predicting Reasoning Circuits in Transformers via Stability Zone Detection

Rajkiran Panuganti

cs.AI cs.LG

本文提出了一种名为CircuitProbe的方法，用于快速预测Transformer语言模型中的推理电路位置。该方法通过分析激活统计量，在CPU上仅需数分钟即可完成预测，相比现有方法实现了数量级的加速。

UK AISI Alignment Evaluation Case-Study

Alexandra Souly et al.

cs.AI cs.CR

本文介绍了英国AI安全研究所开发的一套用于评估先进AI系统是否可靠遵循预设目标的方法框架, 并将其应用于评估前沿模型在作为AI实验室内的编码助手时是否会破坏安全研究. 基于一个名为Petri的开源LLM审计工具和定制的模拟脚手架, 该研究对四个前沿模型进行了测试, 未发现研究破坏的确凿实例, 但观察到了模型对安全相关任务的频繁拒绝行为, 并讨论了评估框架的局限性.

RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning

Shaopeng Fu et al.

cs.AI

本文提出了一种名为RefineRL的新方法, 旨在利用大型语言模型(LLMs)的自我精炼能力来解决竞争性编程(CP)问题. 该方法通过结合一个持怀疑态度的智能体(Skeptical-Agent)和强化学习(RL)训练, 使较小的模型在CP任务上取得了显著的性能提升.

Preference Guided Iterated Pareto Referent Optimisation for Accessible Route Planning

Paolo Speziali et al.

cs.AI cs.LG

本文提出了一种用于城市路线规划的偏好引导迭代Pareto参考优化算法, 允许用户通过反馈交互式地调整目标权重. 该方法避免了计算完整的Pareto前沿, 提高了计算效率并缩短了用户等待时间.

Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

Deepak Nathani et al.

cs.AI cs.LG cs.MA

本文提出了一个用于评估 proactive agents 的模拟框架 Pare, 它将应用程序建模为有限状态机以支持状态化的用户交互模拟. 基于此框架, 作者构建了一个包含 143 个多样化任务的基准测试 Pare-Bench, 用于测试智能体在数字环境中的多种能力.

Beyond Symbolic Solving: Multi Chain-of-Thought Voting for Geometric Reasoning in Large Language Models

Md. Abu Bakor Siddique et al.

cs.AI cs.CL cs.CV

本文提出了一种名为MARS-GPS的方法，通过生成多个并行的推理链并利用Python代码执行进行数值验证，来提升大语言模型在几何问题求解上的性能。该方法通过多阶段投票和自验证流程聚合答案，在Geometry3K数据集上取得了显著的准确率提升。

Experience as a Compass: Multi-agent RAG with Evolving Orchestration and Agent Prompts

Sha Li, Naren Ramakrishnan

cs.AI

本文提出了一个名为HERA的分层框架, 用于联合优化多智能体RAG系统中的编排策略和角色特定的智能体提示. 该方法通过全局的奖励引导采样和经验积累来优化查询特定的智能体拓扑, 并在局部通过角色感知的提示演化来精炼智能体行为. 实验表明, HERA在多个知识密集型基准测试上优于现有基线.

PsychAgent: An Experience-Driven Lifelong Learning Agent for Self-Evolving Psychological Counselor

Yutao Yang et al.

cs.AI

本文提出了一种名为PsychAgent的经验驱动终身学习智能体, 用于心理辅导领域. 它通过记忆增强规划, 技能进化和强化内化等机制, 旨在模拟人类专家通过实践持续进化的过程, 并在多轮对话评估中超越了通用大语言模型和领域基线.

OmniMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

Jiaqi Liu et al.

cs.AI

本文介绍了一个名为 OmniMem 的多模态智能体记忆框架，它通过一个自主研究流程自动探索和优化了记忆系统的设计空间。该框架在两个基准测试上取得了显著的性能提升，其关键改进来自对系统架构、数据管道和提示工程的自动化发现与修复，而非传统的超参数调优。

Adversarial Moral Stress Testing of Large Language Models

Saeid Jamshidi et al.

cs.AI

本文提出了一个名为Adversarial Moral Stress Testing (AMST) 的评估框架, 用于测试大型语言模型在多轮对抗性交互中的伦理鲁棒性. 该方法通过结构化的压力变换和分布感知的鲁棒性指标, 揭示了传统单轮评估难以发现的模型行为退化模式.

Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

Aaron Rose et al.

cs.AI cs.LG cs.MA

本文提出了一种通过分析模型内部激活来检测多智能体系统中合谋行为的方法, 并引入了NARCBench基准进行评估. 研究发现, 不同的合谋类型在激活空间中的表现不同, 且信号可能集中在处理特定消息的token层面.

Therefore I am. I Think

Esakkivel Esakkiraja et al.

cs.AI

本文通过线性探针和激活导向技术, 研究了大型语言模型在推理任务中决策与思维链生成的时序关系. 实验表明, 模型在生成推理文本之前, 其内部激活状态就已编码了工具调用等决策信息.

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Zhe Yang et al.

cs.AI cs.CV

本文提出了一个名为HippoCamp的新基准，用于评估智能体在多模态文件管理方面的能力。该基准专注于用户中心环境中的上下文感知推理，揭示了当前先进模型在此类任务上的显著性能差距。

cs.IR

FGR-ColBERT: Identifying Fine-Grained Relevance Tokens During Retrieval

Antonín Jarolím, Martin Fajčík

cs.IR cs.CL

本文提出了一种改进的检索模型FGR-ColBERT, 它通过将LLM提取的细粒度相关性信号直接集成到检索函数中, 在保持检索效率和效果的同时, 实现了对文档内相关文本片段(token)的识别.

Evidence Units: Ontology-Grounded Document Organization for Parser-Independent Retrieval

Yeonjee Han

cs.IR

本文提出了一种名为Evidence Units (EUs)的解析器无关文档组织方法, 用于将视觉资产(如图表, 公式)与其上下文文本组合成语义完整的检索单元. 该方法通过本体论角色归一化, 语义全局分配算法和图规则验证来构建EUs, 在文档问答基准上显著提升了检索性能.

UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

Mingming Ha et al.

cs.IR cs.AI

本文提出了一种用于推荐系统缩放定律的统一架构UniMixer, 它将基于attention, TokenMixer和因子分解机的缩放方法统一到一个理论框架中. 通过将TokenMixer转化为参数化结构, 该架构允许在训练中优化token混合模式, 并设计了更轻量的UniMixing-Lite模块以提升缩放效率.

STCALIR: Semi-Synthetic Test Collection for Algerian Legal Information Retrieval

M'hamed Amine Hatem et al.

cs.IR

本文提出了一个用于构建阿尔及利亚法律信息检索半合成测试集的框架STCALIR. 该框架通过自动化流程大幅减少了人工标注工作量, 并在基准测试中取得了与人工标注相当的评估效果.

A novel three-step approach to forecast firm-specific technology convergence opportunity via multi-dimensional feature fusion

Fu Gu, Ao Chen, Yingwen Wu

cs.IR

本文提出了一种融合专利多维度特征的三步法来预测企业特定的技术融合机会. 该方法通过注意力机制融合特征, 并利用集成学习与大型语言模型进行评估, 在案例中验证了有效性.

Doctor-RAG: Failure-Aware Repair for Agentic Retrieval-Augmented Generation

Shuguang Jiao et al.

cs.IR

本文提出了一个名为Doctor-RAG的诊断与修复框架，用于处理Agentic RAG在长推理轨迹中出现的失败问题。该方法通过定位错误点和复用已验证的前缀来减少计算开销，并在多个基准测试中提升了答案准确性。

Aligning Recommendations with User Popularity Preferences

Mona Schirmer et al.

cs.IR cs.AI cs.CY

本文提出了一种衡量推荐系统与用户流行度偏好对齐程度的框架Popularity Quantile Calibration, 并基于此提出了一个名为SPREE的推理时缓解方法. 该方法通过激活引导技术, 在表示空间中识别流行度方向, 并根据用户个人偏好自适应地调整推荐, 旨在改善用户层面的对齐而非全局去偏.

cs.CL

Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning ⭐ 精选

Eric Hanchen Jiang et al.

cs.CL stat.AP

本文提出了一种名为 Agent Q-Mix 的强化学习框架，用于优化 LLM 多智能体系统中的通信拓扑选择问题。该方法将拓扑选择建模为一个合作式多智能体强化学习问题，利用 QMIX 价值分解让每个智能体学习去中心化的通信决策，从而在每轮交互中动态生成通信图。该框架结合了拓扑感知的 GNN 编码器、GRU 记忆模块和中心化训练与去中心化执行范式，通过优化一个平衡任务准确性与令牌成本的奖励函数，在多个基准测试中实现了更高的平均准确率和更好的令牌效率。

LangMARL: Natural Language Multi-Agent Reinforcement Learning ⭐ 精选

Huaiyuan Yao et al.

cs.CL

本文提出了LangMARL框架, 将经典合作式多智能体强化学习(MARL)中的credit assignment(信用分配)和policy gradient(策略梯度)进化方法引入到语言智能体领域. 该框架通过agent-level的语言信用分配来缓解稀疏奖励下的因果信号模糊问题, 并首次在语言空间实现了策略的梯度进化. 实验表明, 该方法在多种合作任务中提升了样本效率、可解释性和泛化能力, 为解决LLM智能体在动态环境中自主进化协调策略的瓶颈提供了新思路.

An Empirical Recipe for Universal Phone Recognition

Shikhar Bharadwaj et al.

cs.CL cs.LG cs.SD eess.AS

本文提出了一种名为PhoneticXEUS的通用音素识别模型, 通过在大规模多语言数据上进行训练, 在多项基准测试中取得了最先进的性能. 作者通过系统的消融实验, 量化了自监督学习表示、数据规模和损失函数等因素对多语言音素识别性能的影响.

Benchmark for Assessing Olfactory Perception of Large Language Models

Eftychia Makri et al.

cs.CL cs.AI

本文提出了一个用于评估大语言模型嗅觉推理能力的基准测试OP, 包含8类任务共1010个问题. 评估发现, 使用化合物名称提示的效果优于SMILES表示, 表明模型主要依赖词汇关联而非分子结构推理, 最佳模型总体准确率为64.4%.

A Reliability Evaluation of Hybrid Deterministic-LLM Based Approaches for Academic Course Registration PDF Information Extraction

Muhammad Anis Al Hilmi, Neelansh Khare, Noel Framil Iglesias

cs.CL cs.AI cs.IR

本文评估了从课程注册PDF文档中提取信息的几种混合方法的可靠性. 实验表明, 结合确定性规则与LLM的方法在计算受限环境下能取得较好的准确性与效率.

LinearARD: Linear-Memory Attention Distillation for RoPE Restoration

Ning Yang et al.

cs.CL cs.AI

本文提出了一种名为 LinearARD 的线性内存注意力蒸馏方法，用于恢复因扩展上下文窗口而性能受损的 RoPE 模型。该方法通过对齐师生模型的自关系矩阵分布来直接监督注意力动态，并引入线性内存核来克服二次内存瓶颈。实验表明，该方法能以极少的训练 token 有效恢复模型在短文本上的性能。

Scalable Identification and Prioritization of Requisition-Specific Personal Competencies Using Large Language Models

Wanxin Li et al.

cs.CL cs.CY cs.IR cs.LG

本文提出了一种基于 large language model (LLM) 的方法，用于从招聘需求中识别和优先排序与特定职位相关的个人能力。该方法结合了动态 few-shot prompting 和反思式自我改进等技术，在项目经理职位的数据集上取得了接近人类专家评估水平的准确率。

Dynin-Omni: Omnimodal Unified Large Diffusion Language Model

Jaeik Kim et al.

cs.CL cs.AI

本文提出了一个名为 Dynin-Omni 的基于掩码扩散 (masked diffusion) 的全模态基础模型。该模型在单一架构内统一了文本、图像、语音的理解与生成以及视频理解，并在多个基准测试中取得了有竞争力的性能。

How Trustworthy Are LLM-as-Judge Ratings for Interpretive Responses? Implications for Qualitative Research Workflows

Songhee Han et al.

cs.CL cs.AI

本文评估了LLM-as-judge框架在评估定性研究解释性回答时与人类判断的一致性。研究发现，自动化评分能反映模型层面的趋势，但在具体评分和细微解释上存在显著偏差，建议将其用于初步筛选而非替代人工评估。

Eyla: Toward an Identity-Anchored LLM Architecture with Integrated Biological Priors -- Vision, Implementation Attempt, and Lessons from AI-Assisted Development

Arif Aditto

cs.CL cs.AI

本文提出了一个名为Eyla的、整合了生物启发子系统的LLM架构构想, 并报告了其实现尝试与失败分析. 作者尝试使用AI编程助手进行开发但未能成功, 并由此总结了AI辅助开发新型架构的系统性失败模式.

Can LLMs Perceive Time? An Empirical Investigation

Aniketh Garikaparthi

cs.CL cs.AI

本文通过实验发现, large language models (LLMs) 在感知自身任务执行时间方面存在系统性缺陷. 模型对任务耗时的预估、排序和回忆均与实际情况严重脱节, 这对其在需要时间规划的 agent 场景中的应用构成了限制.

Finding and Reactivating Post-Trained LLMs' Hidden Safety Mechanisms

Mingjie Li et al.

cs.CL cs.AI

本文针对 post-trained LLMs 的安全性能下降问题进行了研究, 发现其原有安全机制并未被移除而是被掩盖. 作者提出了一种轻量级的解决方案 SafeReAct, 通过使用 LoRA adapters 在少数层进行对齐来恢复被抑制的安全行为, 并在多个 LRMs 和领域特定模型上验证了其有效性.

MSA-Thinker: Discrimination-Calibration Reasoning with Hint-Guided Reinforcement Learning for Multimodal Sentiment Analysis

Miaosen Luo et al.

cs.CL cs.AI

本文提出了一种结合 Discrimination-Calibration 推理与基于提示的强化学习的训练框架，用于提升多模态情感分析模型的性能和可解释性。该方法在细粒度情感回归任务上取得了更高的准确率，并生成了结构化的推理链。

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

Congning Ni et al.

cs.CL cs.HC

本文提出了一个名为UTCO的prompt构建框架, 用于系统性地测试大型语言模型(LLM)在心理健康问答中的幻觉和遗漏问题. 研究发现, 模型失败与prompt中的context和tone元素最为相关.

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Serry Sibaee et al.

cs.CL

本文构建了一个用于科学翻译评估的高质量英阿平行语料库 ASCAT, 其包含来自多个科学领域的完整摘要, 并通过多引擎翻译与人工验证流程确保质量. 作者在语料库上对多个先进大语言模型进行了基准测试, 展示了其作为评估基准的区分能力.

Are they human? Detecting large language models by probing human memory constraints

Simon Schug, Brenden M. Lake

cs.CL cs.AI

本文提出了一种通过探测人类工作记忆限制来区分人类与大型语言模型的方法. 作者利用序列回忆任务中的认知建模, 即使模型被指令模仿人类限制, 也能有效进行检测.

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora

Orlova Anastasia

cs.CL

本文使用 distributional semantics 方法分析了俄语科学语料库与科普媒体语料库中心理学概念的语义变化。研究发现，科学文本强调方法论与临床术语，而科普文本则更关注日常经验与治疗实践，揭示了不同话语类型间的词汇与概念框架差异。

Think Twice Before You Write -- an Entropy-based Decoding Strategy to Enhance LLM Reasoning

Jiashu He et al.

cs.CL cs.AI

本文提出了一种基于熵的decoding策略, 通过识别token分布中的高不确定性位置并选择性分支, 将计算资源集中在推理过程的关键不确定点上. 该方法在多个数学推理基准测试上取得了稳定的性能提升, 尤其对于较小模型能以较低成本达到接近大型模型的水平.

The Chronicles of RiDiC: Generating Datasets with Controlled Popularity Distribution for Long-form Factuality Evaluation

Pavel Braslavski et al.

cs.CL cs.AI

本文提出了一种可配置的流水线，用于生成具有指定特征（如领域、地理位置和流行度）的多语言实体集合，数据来源于Wikipedia和Wikidata。生成的RiDiC数据集用于评估大语言模型在生成长文本时的真实性，并展示了即使是前沿模型在处理该数据集实体时也会产生幻觉。

Detecting Abnormal User Feedback Patterns through Temporal Sentiment Aggregation

Yalun Qi et al.

cs.CL

本文提出了一种基于时间情感聚合的框架, 用于检测用户反馈中的异常模式. 该方法利用预训练的 transformer 模型提取单条评论的情感信号, 并通过聚合时间窗口内的分数来识别显著的情感下降趋势.

How Do Language Models Process Ethical Instructions? Deliberation, Consistency, and Other-Recognition Across Four Models

Hiroki Fukui

cs.CL cs.AI cs.CY

本文通过多智能体模拟研究了四种大语言模型对伦理指令的内部处理机制. 研究发现, 不同模型展现出四种不同的伦理处理类型, 且指令格式仅在具有高Deliberation Depth的模型中影响内部处理. 伦理指令的词汇遵从性与内部处理指标无关.

Criterion Validity of LLM-as-Judge for Business Outcomes in Conversational Commerce

Liang Chen et al.

cs.CL cs.AI

本文通过一个两阶段研究, 检验了基于多维量表的对话评估(通过LLM-as-Judge实现)与下游业务转化之间的准则效度. 研究发现, 不同评估维度与业务结果的相关性存在显著异质性, 等权重综合评分会因"稀释效应"而表现不佳, 而基于转化结果重新加权可以部分改善预测效果.

Phonological Fossils: Machine Learning Detection of Non-Mainstream Vocabulary in Sulawesi Basic Lexicon

Mukhlis Amien, Go Frendi Gunawan

cs.CL

本文结合基于规则的语源剔除与基于音系特征的机器学习分类器, 分析了苏拉威西地区南岛语系基础词汇中的非主流词汇. 研究识别出大量候选底层词汇, 但聚类分析未发现支持单一前南岛语层存在的证据, 并揭示了这些词汇在音系上的特征及其地理分布模式.

WHBench: Evaluating Frontier LLMs with Expert-in-the-Loop Validation on Women's Health Topics

Sneha Maurya, Pragya Saboo, Girish Kumar

cs.CL cs.AI cs.CY

本文提出了一个专注于女性健康话题的评估基准 WHBench, 通过专家设计的场景和详细的评分标准来评估大型语言模型在医疗指导中的表现. 评估结果显示, 即使表现最佳的模型也存在显著的错误率和安全风险, 强调了在临床应用中需要专家监督.

Brevity Constraints Reverse Performance Hierarchies in Language Models

MD Azizul Hakim

cs.CL cs.AI

本文发现大型语言模型在标准评估中因过度详细回答而表现不佳, 通过限制回答长度可显著提升其准确性并逆转性能排序. 研究基于对31个模型在多个数据集上的实验, 表明提示设计对模型能力评估有重要影响.

"Who Am I, and Who Else Is Here?" Behavioral Differentiation Without Role Assignment in Multi-Agent LLM Systems

Houssam EL Kandoussi

cs.CL cs.AI

本文通过一个控制实验平台研究了多个LLM在共享对话中是否会自发形成行为分化。实验发现, 异质模型组表现出比同质组更显著的行为差异, 并且群体交互、提示结构等因素会显著影响行为收敛模式。

Multi-lingual Multi-institutional Electronic Health Record based Predictive Model

Kyunghoon Hur et al.

cs.CL cs.LG

本文探讨了在无需手动标准化的情况下，利用基于文本的协调和语言对齐方法，对多语言、多机构的ICU电子健康记录进行预测建模。研究比较了多语言编码器和基于LLM的翻译两种策略，发现翻译方法能获得更可靠的跨数据集性能。

Hierarchical Chain-of-Thought Prompting: Enhancing LLM Reasoning Performance and Efficiency

Xingshuai Huang et al.

cs.CL

本文提出了一种名为Hierarchical Chain-of-Thought (Hi-CoT)的结构化提示方法，旨在改进大型语言模型在复杂推理任务中的性能与效率。该方法通过将推理过程分解为层次化的子步骤，在多个数学推理基准测试上取得了比传统CoT方法更高的准确率和更短的推理路径。

Oblivion: Self-Adaptive Agentic Memory Control through Decay-Driven Activation

Ashish Rana et al.

cs.CL cs.AI

本文提出了一个名为Oblivion的记忆控制框架, 用于增强LLM agent的长期推理能力. 该框架通过解耦读写路径, 模拟人类记忆的衰减与强化机制, 以动态管理记忆的访问与存储.

Polish phonology and morphology through the lens of distributional semantics

Paula Orzechowska, R. Harald Baayen

cs.CL

本文利用Distributional Semantics方法，研究了波兰语词汇的phonological和morphological结构与其语义之间的关系。通过t-SNE、Linear Discriminant Analysis等统计计算技术，发现semantic vectors能够捕捉到sub-lexical linguistic units的信息，并能预测phonotactic complexity和morphosyntactic categories。

Do LLMs Know What Is Private Internally? Probing and Steering Contextual Privacy Norms in Large Language Model Representations

Haoran Wang, Li Xiong, Kai Shu

cs.CL

本文研究了大型语言模型(LLMs)内部是否编码了上下文隐私规范。通过基于上下文完整性(CI)理论的探测，发现隐私规范参数在线性可分的方向上被编码，但模型行为仍会泄露隐私。作者提出了CI参数化引导方法，以更有效地控制隐私泄露。

Do Language Models Know When They'll Refuse? Probing Introspective Awareness of Safety Boundaries

Tanay Gondil

cs.CL

本文通过设计实验，让大语言模型先预测自己是否会拒绝回答有害请求，再进行实际回答，以此探究其内省能力。研究发现，模型在安全边界附近的内省敏感性会显著下降，但其置信度分数可作为实际部署中基于信心的路由依据。

A Taxonomy of Programming Languages for Code Generation

Nishat Raihan, Christian Newman, Marcos Zampieri

cs.CL

本文提出了首个针对编程语言(PLs)的可复现资源分类法, 将646种语言划分为四个资源层级. 统计分析表明, 代码数据在不同语言间的分布存在极端且系统性的不平衡, 为多语言大语言模型(LLMs)的数据集构建和评估提供了框架.

REM-CTX: Automated Peer Review via Reinforcement Learning with Auxiliary Context

Pawin Taechoyotin, Daniel E. Acuna

cs.CL cs.AI

本文提出了一种名为REM-CTX的自动同行评审系统，该系统利用强化学习，通过引入与辅助上下文（如图表）对应的奖励函数来生成评审意见。实验表明，该方法在多个科学领域的评审质量上超越了更大的商业模型和其他基线系统。

LLM Essay Scoring Under Holistic and Analytic Rubrics: Prompt Effects and Bias

Filip J. Kucia, Anirban Chakraborty, Anna Wróblewska

cs.CL cs.AI

本文系统评估了指令调优的LLMs在三个公开的作文评分数据集上的表现, 涵盖了整体性和分析性评分标准. 研究发现, 模型在分析性评分中对语法等低阶特征存在稳定且显著的负向评分偏差, 并提出了基于小规模人工标注集进行偏差校正的部署策略.

Can Large Language Models Self-Correct in Medical Question Answering? An Exploratory Study

Zaifu Zhan, Mengyuan Cui, Rui Zhang

cs.CL

本文探讨了大型语言模型(LLM)在医学问答任务中通过自我反思提示进行自我修正的有效性。研究使用GPT-4o等模型在多个医学基准测试上进行了实验，发现自我反思并不能稳定提升答案准确性，其效果高度依赖于数据集和模型。

Frege in the Flesh: Biolinguistics and the Neural Enforcement of Syntactic Structures

Elliot Murphy

cs.CL

本文探讨了生物语言学将语言视为内在生物器官的观点, 并论证了形式化的句法理论(如MERGE操作)能为探索语言的神经机制提供约束和指导. 作者通过四个步骤阐述了这一观点, 并指出当前神经计算研究正开始将这些理论约束转化为可检验的假设.

Asymmetric Actor-Critic for Multi-turn LLM Agents

Shuli Jiang et al.

cs.CL cs.AI

本文提出了一种用于多轮对话LLM智能体的非对称actor-critic框架。该框架利用一个强大的专有LLM作为actor进行生成，同时用一个较小的开源模型作为critic进行运行时监督，以提升单次尝试的可靠性。实验表明，该方法在多个基准测试上优于单智能体基线，且轻量级critic能取得与大型专有模型相当甚至更好的监督效果。

Large Language Models in the Abuse Detection Pipeline

Suraj Kath et al.

cs.CL cs.CY

本文是一篇关于大语言模型在在线滥用检测流程中应用的综述. 它提出了一个包含四个阶段的生命周期框架, 并分析了LLMs在各阶段的研究现状、优势与挑战.

Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models

Liancheng Fang et al.

cs.CL

本文探讨了 diffusion large language models (dLLMs) 在推理任务中面临的质量与探索权衡困境。作者提出了一种基于 Independent Metropolis–Hastings 的采样方法，旨在更好地平衡这一矛盾，并在多个基准测试上验证了其有效性。

TR-ICRL: Test-Time Rethinking for In-Context Reinforcement Learning

Wenxuan Jiang et al.

cs.CL

本文提出了一个用于In-Context Reinforcement Learning (ICRL)的新框架TR-ICRL，旨在解决推理时缺乏真实奖励信号的问题。该框架通过从无标签评估集中检索相关实例并利用多数投票生成伪标签来提供奖励反馈，从而引导语言模型进行迭代优化。实验表明，该方法在多个推理和知识密集型任务上显著提升了模型性能。

Polysemanticity or Polysemy? Lexical Identity Confounds Superposition Metrics

Iyad Ait Hou, Rebecca Hwa

cs.CL cs.AI

本文探讨了神经网络中神经元激活重叠的来源, 指出标准度量方法可能将词汇形式(lexical form)的共享误判为概念叠加(superposition). 通过因子分解实验, 作者证明词汇混淆(lexical confound)的影响在多种规模模型中持续存在, 并会影响下游任务性能.

Adapting Text LLMs to Speech via Multimodal Depth Up-Scaling

Kazuki Yano, Jun Suzuki, Shinji Watanabe

cs.CL

本文提出了一种名为 Multimodal Depth Upscaling 的方法, 用于将预训练的文本 LLM 适配到语音任务. 该方法通过在冻结的文本模型中插入新的 transformer 层并仅训练这些层, 在保持文本能力的同时实现了与全参数微调相当的语音识别性能.

Optimsyn: Influence-Guided Rubrics Optimization for Synthetic Data Generation

Zhiting Fan et al.

cs.CL cs.AI

本文提出了一种基于目标模型训练效用的评估方法来指导合成数据生成, 通过梯度信息量化合成样本对特定任务目标的影响, 并利用该影响分数作为奖励, 通过强化学习优化用于生成数据的 rubric (评估准则). 实验表明该方法在不同领域和模型上能带来一致的性能提升.

A Japanese Benchmark for Evaluating Social Bias in Reasoning Based on Attribution Theory

Taihei Shiotani, Masahiro Kaneko, Naoaki Okazaki

cs.CL

本文基于社会心理学中的attribution theory构建了一个新的日语数据集"JUBAKU-v2"，用于评估大语言模型在推理过程中对群体行为的归因偏见。该数据集包含216个反映日本特定文化偏见的例子，实验表明其比现有基准能更敏感地检测模型间的性能差异。

More Human, More Efficient: Aligning Annotations with Quantized SLMs

Jiayu Wang, Junyoung Lee

cs.CL

本文探讨了使用量化小型语言模型进行文本标注的可行性. 通过微调和特定框架, 该模型在特定任务上取得了优于大型专有模型的一致性表现.

Speech LLMs are Contextual Reasoning Transcribers

Keqi Deng et al.

cs.CL

本文提出了一种名为 CoT-ASR 的方法，将 chain-of-thought 推理引入基于 LLM 的语音识别中。该方法通过一个 CTC 引导的模态适配器来对齐语音和文本特征，从而在生成上下文分析后进行转录，实验表明其降低了词错误率和实体错误率。

English to Central Kurdish Speech Translation: Corpus Creation, Evaluation, and Orthographic Standardization

Mohammad Mohammadamini et al.

cs.CL

本文构建了用于Central Kurdish的语音到文本翻译数据集KUTED, 并评估了orthographic variation对翻译性能的影响. 作者提出了一种文本标准化方法, 在多个基准上提升了翻译模型的性能.

TRIMS: Trajectory-Ranked Instruction Masked Supervision for Diffusion Language Models

Lingjie Chen et al.

cs.CL

本文提出了一种名为TRIMS的轨迹引导监督微调框架, 用于改进Diffusion Language Models (DLMs)的解码轨迹. 该方法利用自回归模型的轻量级信号来指导掩码策略, 从而在数学和代码基准测试上提升了生成准确性与并行效率的权衡.

Common TF-IDF variants arise as key components in the test statistic of a penalized likelihood-ratio test for word burstiness

Zeyad Ahmed et al.

cs.CL cs.IR math.ST

本文从统计假设检验的角度重新审视了经典的TF-IDF公式. 作者通过一个针对词突发性(burstiness)的惩罚似然比检验框架, 证明了TF-IDF及其变体可以自然地作为该检验统计量的组成部分而出现. 该工作为理解TF-IDF提供了新的统计视角, 并展示了假设检验框架在开发术语加权方案方面的潜力.

OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models

Han Zhu et al.

cs.CL eess.AS

本文提出了一种名为OmniVoice的大规模多语言零样本文本到语音模型, 其核心是一种新颖的diffusion language model风格的非自回归架构. 该模型通过直接映射文本到多码本声学token, 简化了传统流程, 并在一个大型开源数据集上训练, 覆盖了超过600种语言.

AfrIFact: Cultural Information Retrieval, Evidence Extraction and Fact Checking for African Languages

Israel Abebe Azime et al.

cs.CL

本文构建了AfrIFact数据集, 用于支持对十种非洲语言和英语的自动事实核查任务, 包括信息检索、证据提取和事实核查. 评估表明, 现有模型在跨语言检索和事实核查方面存在不足, 而few-shot prompting和任务特定微调能显著提升性能.

To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining

Karan Singh et al.

cs.CL cs.AI cs.LG

本文研究了在固定数据预算下，语言模型预训练数据规模与检索知识库规模之间的权衡。通过实验和分析，提出了一个三维缩放框架，为设计可扩展的语言建模系统提供了数据资源分配的实用指导。

Stochastic Attention: Connectome-Inspired Randomized Routing for Expressive Linear-Time Attention

Zehao Jin, Yanan Sui

cs.CL cs.LG

本文提出了一种受果蝇全脑连接组启发的随机注意力机制, 通过引入随机置换来增强滑动窗口注意力的表达能力. 该方法在保持线性时间复杂度的同时, 实现了随网络深度指数级增长的感受野, 并在语言模型预训练和推理任务中验证了其有效性.

From Baselines to Preferences: A Comparative Study of LoRA/QLoRA and Preference Optimization for Mental Health Text Classification

Mihael Arcan

cs.CL

本文系统比较了LoRA/QLoRA等参数高效微调方法与DPO等偏好优化方法在心理健康文本分类任务上的表现。研究强调方法选择比简单添加偏好训练阶段更重要，并提供了一个从透明基线开始的实用优化框架。

From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks

Ayan Datta et al.

cs.CL

本文研究了大型语言模型(LLMs)在字符计数等基础符号任务上失败的内在原因。通过机制分析发现，模型内部能计算正确答案，但在输出层被特定组件抑制。

Valency Classification of Mapudungun Verbal Roots. Established by the language's own morphotactics

Andrés Chandía

cs.CL

本文基于Mapudungun语言自身的形态结构，对其动词词根的配价(valency)进行了分类。研究通过分析词根或动词词干与不同后缀的可容许组合，旨在改进形态分析器Dungupeyum，并从理论层面增进对Mapuche动词配价问题的理解。

Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding

Hemanth Kotaprolu et al.

cs.CL cs.AI

本文提出了一个基于场景的多维情感理解基准EmoScene, 并引入了一个结合情感共现统计的贝叶斯推理框架来提升预测的结构一致性. 实验表明, 当前大型语言模型在此任务上表现有限, 而所提的后处理方法能有效提升较弱模型的性能.

Agentic Tool Use in Large Language Models

Jinchao Hu et al.

cs.CL

本文对大型语言模型作为自主智能体使用外部工具的研究进行了系统性梳理. 它将现有方法归纳为三种范式, 分析了各自的特点与局限, 并对评估体系进行了综述, 旨在为该领域提供一个结构化的演进视图.

KUET at StanceNakba Shared Task: StanceMoE: Mixture-of-Experts Architecture for Stance Detection

Abdullah Al Shafi et al.

cs.CL cs.AI cs.LG

本文提出了一种名为StanceMoE的混合专家架构，用于演员级别的立场检测任务。该模型基于微调的BERT编码器，通过多个专家模块捕获不同的语言信号，并在一个数据集上取得了优于基准模型的性能。

When Users Change Their Mind: Evaluating Interruptible Agents in Long-Horizon Web Navigation

Henry Peng Zou et al.

cs.CL

本文研究了在长时程网页导航任务中可中断智能体的评估问题, 提出了包含三种中断类型的InterruptBench基准, 并评估了多种大型语言模型在适应意图更新和从任务中途变更中恢复的效率.

GPT-NL Public Corpus: A Permissively Licensed, Dutch-First Dataset for LLM Pre-training

Jesse van Oort et al.

cs.CL

本文介绍了GPT-NL Public Corpus, 一个主要包含荷兰语资源的大型、许可宽松的语料库. 该语料库整合了现有数据集并创建了新的荷兰语特定集合, 旨在促进合法、有用且无害的语言模型开发.

Positional Cognitive Specialization: Where Do LLMs Learn To Comprehend and Speak Your Language?

Luis Frentzen Salim, Lun-Wei Ku, Hsing-Kuo Kenneth Pao

cs.CL

本文研究了decoder-only transformer模型在训练过程中如何习得新语言, 提出了"位置认知专业化"的概念, 区分了语言感知(输入理解)和语言产出(输出生成)两种功能. 通过层消融实验, 作者发现这两种专业化出现在模型的不同区域, 并据此提出了CogSym启发式方法, 该方法仅需微调模型最外层的一部分层即可实现有效适应.

Phase transition on a context-sensitive random language model with short range interactions

Yuma Toji et al.

cs.CL cond-mat.stat-mech stat.ML

本文构建了一个具有短程相互作用的随机语言模型, 该模型属于 Chomsky hierarchy 中的 context-sensitive grammar 类. 通过数值模拟, 作者发现即使模型只参考长度固定的上下文, 相变依然会发生, 这表明语言模型中的相变源于语言的内在本质而非长程相互作用.

Dual Optimal: Make Your LLM Peer-like with Dignity

Xiangqi Wang et al.

cs.CL cs.AI

本文提出了一种名为"Dignified Peer"的框架, 旨在解决当前对齐语言模型中存在的"Evasive Servant"问题. 该方法通过引入具有组合偏序结构的数据集和一种约束优化算法, 尝试构建一个更具尊严和同伴感的AI agent.

Multimodal Analysis of State-Funded News Coverage of the Israel-Hamas War on YouTube Shorts

Daniel Miehling, Sandra Kuebler

cs.CL cs.AI cs.SI

本文提出了一种结合自动转录、基于方面的情感分析和语义场景分类的多模态分析流程, 用于研究YouTube Shorts上国家资助媒体对以哈战争的报道. 研究发现, 不同媒体在特定方面的情感表达存在差异且随时间变化, 而视觉场景分类则与现实事件一致, 同时较小的领域适应模型在情感分析任务上表现优于大型Transformer模型.

Uncertainty-Aware Variational Reward Factorization via Probabilistic Preference Bases for LLM Personalization

Gyuseok Lee et al.

cs.CL

本文提出了一个不确定性感知的变分奖励分解框架，用于大型语言模型的个性化。该方法通过变分推断将用户偏好表示为共享偏好空间中的概率分布，并利用方差衰减损失来降低不确定估计的影响。

Narrative Fingerprints: Multi-Scale Author Identification via Novelty Curve Dynamics

Fred Zimmerman, Hilmar AI

cs.CL cs.DL cs.IR

本文通过分析文本的information-theoretic novelty curves来探索作者身份识别。研究发现，作者在书籍和章节层面均留下可测量的多尺度特征信号，这些信号部分受genre影响但具有一定持久性。

Temporal Dependencies in In-Context Learning: The Role of Induction Heads

Anooshka Bajaj et al.

cs.CL cs.AI

本文通过类比认知科学中的自由回忆范式, 研究了大型语言模型在上下文学习中的信息检索模式. 研究发现, 模型倾向于对输入序列中重复标记后的下一个标记赋予最高概率, 并证实了专门关注当前标记上一次出现之后标记的"induction heads"在这一现象中的关键作用.

CARE: Privacy-Compliant Agentic Reasoning with Evidence Discordance

Haochen Liu et al.

cs.CL

本文提出了一个名为CARE的隐私合规智能体推理框架, 用于处理医疗决策中症状与体征证据不一致的挑战. 该方法通过远程LLM生成结构化指导, 本地LLM处理敏感数据的方式, 在构建的MIMIC-DOS数据集上取得了优于基线模型的性能.

Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

Atsuyuki Miyai et al.

cs.CL cs.AI cs.LG

本文提出了一个名为PaperRecon的系统性评估框架，用于量化由现代编码智能体生成的论文的质量与风险。该框架通过让智能体根据论文概览重构全文，并从Presentation和Hallucination两个维度进行评估，揭示了不同模型在生成质量与事实准确性之间存在权衡。

Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

Mohammad R. Abu Ayyash

cs.CL cs.AI

本文提出了一种用于大语言模型持续多领域微调的模块化架构 Brainstacks. 该方法通过冻结的 adapter stacks 组合领域专长, 并引入了基于结果的 meta-router 来发现可迁移的认知原语.

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Jack Young

cs.CL cs.LG

本文提出了一种称为S0 tuning的参数高效微调方法, 该方法仅优化混合Recurrent-Attention模型中每个recurrent层的初始状态矩阵, 而冻结所有权重. 实验表明, 该方法在代码生成等任务上取得了与LoRA相当或更好的性能, 且没有推理开销.

Embarrassingly Simple Self-Distillation Improves Code Generation

Ruixiang Zhang et al.

cs.CL

本文提出了一种名为简单自蒸馏(SSD)的方法, 用于提升大语言模型(LLM)的代码生成能力. 该方法仅利用模型自身的原始输出进行微调, 无需额外验证器或强化学习, 并在多个模型和规模上验证了其有效性.

ORBIT: Scalable and Verifiable Data Generation for Search Agents on a Tight Budget

Nandan Thakur et al.

cs.CL cs.AI cs.IR

本文提出了一种名为ORBIT的低成本、可扩展且可验证的数据生成框架, 用于训练搜索智能体(Search Agents). 该框架通过模块化流程生成包含多步推理的查询-答案对, 并利用开源模型进行验证, 最终在多个问答任务上验证了所生成数据训练出的模型的有效性.

LLM REgression with a Latent Iterative State Head

Yiheng Su, Matthew Lease

cs.CL cs.LG

本文提出了一种名为RELISH的轻量级架构, 用于大语言模型(LLM)的文本回归任务. 该方法通过cross-attention迭代精炼一个潜在状态, 并最终通过线性回归器直接预测标量值, 在多个数据集和LLM骨干上取得了优于现有方法的效果, 且参数量极少.

$\texttt{YC-Bench}$: Benchmarking AI Agents for Long-Term Planning and Consistent Execution

Muyu He et al.

cs.CL cs.AI

本文介绍了用于评估AI智能体长期规划和一致执行能力的基准测试$\texttt{YC-Bench}$. 该基准模拟了为期一年的初创公司运营环境, 要求智能体在部分可观测、具有对抗性客户和复合决策后果的场景中进行管理决策. 实验评估了多种模型, 发现仅有少数能持续超越初始资本, 其中信息跨上下文持久化的机制是成功的关键预测因素.

Universal YOCO for Efficient Depth Scaling

Yutao Sun et al.

cs.CL

本文提出了一种名为Universal YOCO (YOCO-U)的Transformer架构变体，旨在提升大型语言模型推理时的计算效率。它结合了YOCO解码器-解码器结构和递归计算，以在保持高效推理的同时改善模型的能力和扩展性。

cs.DS

Single-Criteria Metric $r$-Dominating Set Problem via Minor-Preserving Support

Reilly Browne, Hsien-Chih Chang

cs.DS cs.CG

本文针对平面图上的顶点加权度量$r$-支配集问题，提出了首个单准则多项式时间$O(1)$近似算法。该算法通过构造Voronoi单元收缩的支持图并利用Clarkson-Shor技术，证明了半径$r$球系统的浅层单元复杂度是线性的，从而应用准均匀采样实现了近似。

A Unified Framework for Analysis of Randomized Greedy Matching Algorithms

Mahsa Derakhshan, Tao Yu

cs.DS

本文为顶点迭代随机贪心匹配算法建立了一个统一的分析框架. 该框架被用于改进Ranking和FRanking算法在一般图上的近似比, 同时也分析了在无短奇圈图上的性能.

Secretary, Prophet, and Stochastic Probing via Big-Decisions-First

Aviad Rubinstein, Sahil Singla

cs.DS cs.GT

本文针对具有一般向下封闭约束的 Secretary Problem, Prophet Inequality 和 Stochastic Probing 问题，研究了元素取值为一般（非二元）情形下的近似算法性能。通过提出 Big-Decisions-First 核心原则，文章为其中一个问题设计了 $O(\log n)$ 近似算法，并为另外两个问题证明了 $\tilde{\Omega}(\log^2 n)$ 的硬度下界，从而解决了已知的二次方近似比差距。

Breadth-First Search Trees with Many or Few Leaves

Jesse Beisegel et al.

cs.DS cs.CC cs.DM

本文研究了基于Generic Search, BFS和Lexicographic BFS (LBFS)的first-in搜索树的最大和最小叶节点生成树问题. 分析了这些问题的经典计算复杂性和参数化复杂性, 证明了在参数化为叶节点数时属于FPT, 而在参数化为内部节点数时是W[1]-难的.

A column generation algorithm for finding co-3-plexes in chordal graphs

Alexandre Dupont-Bouillard

cs.DS cs.DM

本文针对弦图(chordal graphs)中的最大co-3-plex寻找问题，提出了一种基于列生成(column generation)的算法。通过将问题转化为一个辅助图上的最大稳定集(maximum stable set)问题，并利用最大顶点和边权诱导路径问题可在多项式时间内求解的性质，设计出了多项式时间的列生成算法。

Fast Deterministic Distributed Degree Splitting

Yannic Maus, Alexandre Nolin, Florian Schager

cs.DS cs.DC

本文改进了在LOCAL模型中计算更平衡的定向(orientation)和度分割(degree splitting)的确定性分布式算法. 通过建立与超图无汇定向(hypergraph sinkless orientation)问题的联系, 将平衡定向的复杂度提升至$\mathcal{O}(\varepsilon^{-1} \cdot \log n)$, 并进一步将结果推广到无向度分割问题. 作为应用, 该算法可用于在$\mathcal{O}(\varepsilon^{-1} \cdot \log^2 \Delta \cdot \log n + \varepsilon^{-2} \cdot \log n)$轮内求解$(3 / 2 + \varepsilon)\Delta$-边着色(edge coloring).

Approximation Algorithms for Budget Splitting in Multi-Channel Influence Maximization

Dildar Ali et al.

cs.DS cs.DB

本文研究了跨广告渠道的预算分配问题, 提出了一个结合广告牌和社交媒体的影响力函数, 并设计了近似算法. 通过引入 bi-submodularity ratio 和 generalized curvature 来分析函数性质, 实验表明所提方法能获得比现有方法更大的影响力.

Near-Optimal Four-Cycle Counting in Graph Streams

Sebastian Lüderssen, Stefan Neumann, Pan Peng

cs.DS

本文研究了在任意顺序图流中近似计数四环(4-cycle)的问题. 提出了一种3-pass算法, 以$\widetilde{O}(m/\sqrt{T})$的空间复杂度实现$(1+\varepsilon)$近似, 改进了现有结果并匹配了已知的下界.

A Framework for Parameterized Subexponential-Subcubic-Time Algorithms for Weighted Problems in Planar Graphs

Matthias Bentert, Fedor V. Fomin, Petr A. Golovach

cs.DS

本文提出了一个用于设计平面图上加权问题参数化亚指数-亚三次时间算法的框架. 该框架基于 Nederlof 的工作, 能够处理权重、非连通解以及解的模式数量随参数指数增长的情况, 并应用于多个加权问题, 如 Weighted Partial Vertex Cover 和 Maximum-Weight Induced Forest, 为它们提供了此前未知的亚指数参数化算法.

Round-efficient Fully-scalable MPC algorithms for k-Means

Shaofeng H.-C. Jiang et al.

cs.DS

本文针对 Euclidean $k$-Means 问题, 在 Massively Parallel Computation (MPC) 模型的 fully-scalable 设定下, 提出了一种在 $O(1)$ 轮内实现 $O((\log n/\log\log n)^2)$ 近似比的算法. 该算法基于一种适用于一般度量的 MP 算法新变体, 其核心是即使在距离扭曲下也能保持 Lagrangian Multiplier Preserving (LMP) 性质.

Rapid mixing in positively weighted restricted Boltzmann machines

Weiming Feng, Heng Guo, Minji Yang

cs.DS cs.LG math.PR

本文分析了 positively weighted restricted Boltzmann machines 中 alternating-scan sampler 的混合时间。通过将其与铁磁 two-spin 系统的 Glauber dynamics 相联系，证明了该采样器具有 polylogarithmic 的混合时间上界。

Faster Approximate Fixed Points of $\ell_\infty$-Contractions

Andrei Feodorov, Sebastian Haslebacher

cs.DS

本文改进了在$\ell_\infty$范数下收缩函数$f : [0, 1]^d \rightarrow [0, 1]^d$的$\epsilon$-近似不动点寻找算法. 通过结合Chen等人的查询高效算法与一个关于$\ell_\infty$收缩函数的分解定理, 作者提出了一个新算法, 其运行时间为$(\log \frac{1}{\epsilon})^{\mathcal{O}(\sqrt{d} \log d)}$, 优于先前结果. 该结果也意味着为近似求解Shapley随机博弈提供了更快的算法.

Two Linear Passes Are Necessary for Sum-Exclude-Self Under Sublinear Space

Andrew Au

cs.DS

本文证明了在亚线性空间下计算无符号整数数组的"sum-exclude-self"问题需要至少两次线性扫描输入. 该下界通过一种称为"choke-point"的技术证明, 并且一个标准的两遍算法可以达到这个下界.

Asymptotically Optimal Sequential Testing with Heterogeneous LLMs

Guokai Li et al.

cs.DS cs.IT math.ST

本文研究了在多个具有异构性能的LLMs下的贝叶斯二元序贯假设检验问题. 作者证明了当错误容忍度趋于零时, 最优策略渐近等价于一个最多使用两个LLMs的策略, 并构造了相应的策略.

others

Agentic AI -- Physicist Collaboration in Experimental Particle Physics: A Proof-of-Concept Measurement with LEP Open Data

Anthony Badea et al.

hep-ex cs.AI hep-ph

本文利用AI agent在物理学家指导下, 使用LEP开放数据对$e^{+}e^{-}$碰撞中的thrust分布进行了测量. 该工作展示了AI agent在加速理论-实验循环方面的潜力.

Quantifying Gender Bias in Large Language Models: When ChatGPT Becomes a Hiring Manager

Nina Gerszberg, Janka Hamori, Andrew Lo

cs.CY cs.AI

本文研究了大型语言模型(LLM)在招聘决策中表现出的性别偏见。通过量化分析发现，模型倾向于雇佣女性候选人但建议更低的薪酬，并探讨了提示工程作为缓解偏见的技术。

Decomposable Reward Modeling and Realistic Environment Design for Reinforcement Learning-Based Forex Trading

Nabeel Ahmad Saidd

q-fin.GN cs.LG

本文提出了一个用于外汇交易的模块化强化学习框架, 包含一个考虑摩擦的执行引擎、一个可分解的奖励架构和一个离散动作接口. 实验在EURUSD上进行, 分析了奖励组件间的非单调交互以及动作空间扩展带来的收益与活动性权衡.

When and Where: A Model Hippocampal Network Unifies Formation of Time Cells and Place Cells

Qiaorong S. Yu, Zhaoze Wang, Vijay Balasubramanian

q-bio.NC cs.AI cs.LG cs.NE physics.bio-ph

本文通过一个模拟海马体CA3区的循环神经网络(RNN)模型, 将空间细胞和时间细胞的生成统一起来. 该模型作为一个预测性自编码器, 在不同的输入模式(空间或时间结构)下, 其隐藏单元会表现出类似位置野或时间野的动态特性.

Isomorphic Functionalities between Ant Colony and Ensemble Learning: Part II-On the Strength of Weak Learnability and the Boosting Paradigm

Ernest Fokoué, Gregory Babbitt, Yuval Levental

stat.ML cs.LG

本文探讨了蚁群决策与集成学习中自适应加权机制的数学同构性. 它将AdaBoost的自适应重加权映射到蚁群的信息素招募动态, 并论证了Boosting的边界理论与群体决策稳定性之间的对应关系.

Transformers for Program Termination

Yoav Alon, Cristina David

cs.PL cs.LG

本文研究了transformer架构能否直接从源代码识别程序终止模式, 并设计了一个集成框架来提升性能. 通过结合不同损失函数训练的模型, 该方法在程序终止判定任务上超越了现有的大型语言模型和图方法.

DriftScript: A Domain-Specific Language for Programming Non-Axiomatic Reasoning Agents

Seamus Brady

cs.PL cs.AI

本文介绍了一种名为DriftScript的领域特定语言, 用于为非公理化推理系统(NARS)编写程序. 该语言采用类Lisp语法, 旨在提高Narsese语言的可读性和可维护性, 并通过编译器将其转换为标准Narsese.

Large Language Models for Analyzing Enterprise Architecture Debt in Unstructured Documentation

Christin Pagels, Simon Hacks, Rob Henk Bemthuis

cs.SE cs.LG

本文提出了一种使用大型语言模型(LLM)从非结构化企业架构文档中识别和量化企业架构债务(EA Debt)的方法。研究设计并评估了一个基于LLM的原型，用于自动检测企业架构异味(EA Smells)，并通过案例研究验证了其可行性。

Whittaker-Henderson smoother for long satellite image time series interpolation

Mathieu Fauvel

eess.IV cs.AI

本文提出了一种可微分的神经网络层来实现Whittaker平滑器, 用于卫星图像时间序列的插值. 该方法通过神经网络推断平滑参数, 并扩展了框架以处理异方差噪声, 同时提供了基于Cholesky分解的高效稀疏实现.

The Energy Footprint of LLM-Based Environmental Analysis: LLMs and Domain Products

Alicia Bao et al.

cs.SE cs.AI

本文评估了基于LLM的气候分析聊天机器人在推理阶段的能耗, 并与通用模型GPT-4o-mini进行了比较. 研究发现, 特定领域RAG系统的能耗高度依赖于其设计, 更具agentic特性的流程会显著增加能耗.

Generalizable Dense Reward for Long-Horizon Robotic Tasks

Silong Yong et al.

cs.RO cs.CV cs.LG

本文提出了一种名为VLLR的稠密奖励框架, 用于对机器人基础策略进行强化学习微调. 该方法结合了由大语言模型和视觉语言模型提供的外在奖励, 以及基于策略自身确定性的内在奖励, 旨在无需人工设计奖励函数的情况下, 提升策略在长视野任务上的表现.

Towards Automatic Soccer Commentary Generation with Knowledge-Enhanced Visual Reasoning

Zeyu Jin et al.

cs.MM cs.AI

本文提出了一种名为GameSight的两阶段模型，用于生成足球比赛解说。该模型通过视觉推理对齐匿名实体，并利用外部统计数据和内部游戏状态信息来增强解说的知识性。实验表明，该方法在实体对齐准确性和解说质量上优于基线模型。

GenoBERT: A Language Model for Accurate Genotype Imputation

Lei Huang et al.

q-bio.GN cs.AI cs.LG

本文提出了一种基于Transformer的基因型插补模型GenoBERT, 它通过token化分型基因型并利用self-attention机制来捕获连锁不平衡依赖关系. 实验表明, 该模型在不同缺失率和人群数据上均优于现有基线方法, 提供了一种不依赖参考面板的解决方案.

Scaled Gradient Descent for Ill-Conditioned Low-Rank Matrix Recovery with Optimal Sampling Complexity

Zhenxuan Li, Meng Huang

stat.ML cs.IT cs.LG

本文针对病态低秩矩阵恢复问题, 分析了Scaled Gradient Descent (ScaledGD)方法的性能. 通过更精细的理论分析, 证明了该方法在达到最优采样复杂度 $O((n_1 + n_2)r)$ 的同时, 保持了 $O(\log(1/\epsilon))$ 的快速迭代复杂度, 并将结论推广到了非正定的一般矩阵恢复问题.

Forecast collapse of transformer-based models under squared loss in financial time series

Pierre Andreoletti

stat.ML cs.LG math.PR math.ST q-fin.CP

本文研究了在平方损失下，对具有弱条件结构的时间序列进行轨迹预测时，使用高表达能力模型（如Transformer）的问题。理论分析表明，在条件期望退化的机制下，模型复杂度的提升不会改善预测精度，反而会因噪声复用而引入虚假波动，导致预测方差增加。在高频汇率数据上的实验验证了Transformer模型的预测误差普遍大于简单线性基准，与理论揭示的方差驱动机制一致。

Genetic algorithms for multi-omic feature selection: a comparative study in cancer survival analysis

Luca Cattelani, Vittorio Fortino

q-bio.GN cs.LG

本文提出了一种名为Sweeping*的多视图、多目标遗传算法，用于癌症生存分析中的多组学特征选择。该方法通过交替进行单视图和多视图优化，旨在从高维数据中识别出紧凑且有效的生物标志物组合。在多个TCGA队列上的实验表明，该方法能在一定程度上改善预测精度与模型复杂度之间的权衡，但其效果因具体数据集而异。

Brain MR Image Synthesis with Multi-contrast Self-attention GAN

Zaid A. Abod, Furqan Aziz

eess.IV cs.AI cs.CV

本文提出了一种名为3D-MC-SAGAN的3D多对比度MRI图像合成框架，用于从单一T2加权图像生成缺失的模态。该方法结合了自注意力机制和对抗性训练，旨在保持肿瘤区域的形态特征。实验表明，该模型在定量指标和视觉质量上均取得了良好效果。

Terminal Agents Suffice for Enterprise Automation

Patrice Bechard et al.

cs.SE cs.AI cs.CL

本文探讨了企业自动化中agent架构的简化可能性. 作者认为, 仅配备终端和文件系统的coding agent能够通过直接与平台API交互, 有效解决许多企业任务, 其性能不亚于更复杂的架构.

Beyond Symbolic Control: Societal Consequences of AI-Driven Workforce Displacement and the Imperative for Genuine Human Oversight Architectures

Richard J. Mitchell

cs.CY cs.AI cs.RO

本文探讨了AI和机器人系统取代人类劳动力所带来的广泛社会影响, 并重点分析了当前治理框架中"名义上"与"真正"的人类监督之间的关键差距. 作者提出了构建真正人类监督系统的五项架构要求, 并警示了当前发展路径可能带来的社会锁定风险.

Hierarchical Pre-Training of Vision Encoders with Large Language Models

Eugene Lee et al.

cs.CV cs.AI cs.CL cs.LG

本文提出了一种名为HIVE的层次化视觉编码器预训练框架, 通过引入视觉编码器与大型语言模型(LLM)之间的层次化交叉注意力机制, 来增强视觉-语言的对齐. 该方法采用三阶段训练策略, 在多个视觉-语言基准测试上取得了优于现有方法的表现.

Efficient Software Vulnerability Detection Using Transformer-based Models

Sameer Shaik et al.

cs.CR cs.LG cs.SE

本文探索了使用Transformer模型进行C/C++软件漏洞检测。该方法利用程序切片捕获代码的关键特征，并通过Transformer的注意力机制整合局部与全局上下文信息，结合数据平衡与超参数调优，实现了资源消耗适中的高效漏洞识别。

From Domain Understanding to Design Readiness: a playbook for GenAI-supported learning in Software Engineering

Rafal Wlodarski

cs.SE cs.AI

本文报告了一项在软件工程课程中使用定制化ChatGPT作为辅助学习工具的教学实践. 学生利用该工具学习加密货币金融基础与领域驱动设计(DDD), 工具在准确性和相关性上表现良好, 但支持性较低. 研究从中提炼出了一系列具体的教学实践建议.

A Study on the Impact of Fault localization Granularity for Repository-Scale Code Repair Tasks

Joseph Townsend et al.

cs.SE cs.AI

本文在假设完美错误定位的前提下, 研究了定位粒度对仓库级代码修复任务的影响. 通过修改Agentless框架的定位阶段以引入真实定位数据, 实验表明函数级粒度在SWE-Bench-Mini数据集上修复率最高, 但最佳粒度可能依赖于具体任务.

Neural-Assisted in-Motion Self-Heading Alignment

Zeev Yampolsky et al.

cs.RO cs.AI

本文提出了一种用于自主海洋平台初始航向估计的神经网络辅助框架. 该方法在真实数据集上评估, 相比传统模型方法, 在精度和对准时间上均有显著提升.

Unified Architecture Metamodel of Information Systems Developed by Generative AI

Oleg Grynets, Vasyl Lyashkevych

cs.SE cs.AI cs.LO

本文探讨了为LLM导向的应用构建统一架构元模型的问题。研究提出了一个覆盖关键架构图类型的框架结构，旨在提升AI生成代码和文档的准确性与可重复性。

Finite-Time Analysis of Projected Two-Time-Scale Stochastic Approximation

Yitao Bai, Thinh T. Doan, Justin Romberg

eess.SY cs.LG

本文分析了带投影的双时间尺度随机逼近算法的有限时间收敛性. 在常数步长和Polyak-Ruppert平均下, 给出了明确的均方误差上界, 并将其分解为近似误差和统计误差两部分.

NFC based inventory control system for secure and efficient communication

Razi Iqbal, Awais Ahmad, Asfandyar Gillani

cs.CR cs.AI

本文提出了一种基于NFC的库存控制系统, 以替代传统的条形码. 该系统通过在商品上粘贴被动NFC标签, 利用NFC技术实现与收银台设备的短距离无线通信, 旨在提升库存管理的安全性、效率和可靠性.

Agentic AI and Occupational Displacement: A Multi-Regional Task Exposure Analysis of Emerging Labor Market Disruption

Ravish Gupta, Saket Kumar

eess.SY cs.AI cs.CY econ.GN stat.AP

本文扩展了Acemoglu-Restrepo的任务暴露框架，以分析agentic AI（能够执行完整工作流程的自主AI agent）对劳动力市场的影响。研究引入了一个算法计算的Agentic Task Exposure (ATE)评分，并预测了到2030年多个信息密集型职业将面临较高的替代风险，同时也识别出一些受益于AI的新兴职业类别。

Explainable AI for Blind and Low-Vision Users: Navigating Trust, Modality, and Interpretability in the Agentic Era

Abu Noman Md Sakib et al.

cs.HC cs.AI cs.ET

本文探讨了面向盲人和低视力用户的Explainable AI需求, 指出当前XAI主要依赖视觉模态, 而AI系统正转向自主agent, 这为BLV用户带来了独特的信任和可解释性挑战. 文章通过用户访谈和文献分析, 提出了一个包含多模态界面和参与式设计的研究议程.

Making Sense of AI Agents Hype: Adoption, Architectures, and Takeaways from Practitioners

Ruoyu Su et al.

cs.SE cs.AI cs.NI

本文通过分析138个行业会议演讲, 研究了AI agents在工业实践中的采用情况、架构模式和应用领域. 研究旨在为从业者理解现实中的智能体系统设计提供参考.

Risk-Aware Batch Testing for Performance Regression Detection

Ali Sayedsalehi, Peter C. Rigby, Gregory Mierzwinski

cs.SE cs.LG cs.PF

本文提出了一种风险感知的批量测试框架，用于在持续集成系统中检测性能回归。该方法结合了机器学习预测的提交风险与自适应批处理策略，在Firefox案例中显著减少了测试执行次数和成本。

AI-Mediated Explainable Regulation for Justice

Thomas Hofweber, Andreas Sudmann, Evangelos Pournaras

cs.CY cs.AI cs.MA

本文提出了一种利用分布式人工智能(AI)来生成可解释、可适应监管建议的新方法. 该方法通过建模利益相关者偏好并以价值敏感的方式进行聚合, 旨在解决当前监管体系存在的静态、不透明等问题, 以提升监管的公正性与合法性.

Benchmarking Interaction, Beyond Policy: a Reproducible Benchmark for Collaborative Instance Object Navigation

Edoardo Zorzi et al.

cs.CV cs.AI

本文提出了一个名为QAsk-Nav的可复现基准，用于评估协作实例目标导航任务。该基准将导航性能与协作提问能力分开评估，并提供了一个包含高质量轨迹的数据集。

The Mystery Deepens: On the Query Complexity of Tarski Fixed Points

Xi Chen, Yuhao Li, Mihalis Yannakakis

cs.CC cs.DS

本文改进了在$k$维格上寻找Tarski不动点的查询复杂度上界. 通过引入并直接利用safe partial-information函数这一新框架, 将算法复杂度从$O(\log^{\lceil (k-1)/2\rceil+1} n)$提升至$O(\log^{\lceil (k-1)/3\rceil+1} n)$, 并在四维格上达到了匹配已知下界的$O(\log^2 n)$查询复杂度.

Engineering Fully Dynamic Convex Hulls

Ivor van der Hoog, Henrik Reinstädtler, Eva Rotenberg

cs.CG cs.DS

本文提出了一种新的fully dynamic convex hull算法, 结合了logarithmic method与deletion-only数据结构, 实现了$O(\log n \log \log n)$的amortised更新时间与$O(\log^2 n)$的查询时间. 实验表明, 在更新频繁或包含较多点的实际数据集上, 该方法的性能优于现有技术且更加稳定.

Hybrid Energy-Based Models for Physical AI: Provably Stable Identification of Port-Hamiltonian Dynamics

Simone Betteti, Luca Laurenti

eess.SY cs.AI cs.LG math.DS

本文提出了一种用于系统识别的混合energy-based model框架, 该框架通过设计保证了动力学的稳定性和吸收不变性. 作者扩展了EBM理论以处理非光滑激活函数, 并引入了一种混合架构来平衡表达能力和稳定性保证. 实验验证了该方法在复杂系统上的有效性.

The Geometry of Compromise: Unlocking Generative Capabilities via Controllable Modality Alignment

Hongyuan Liu et al.

cs.CV cs.AI

本文提出了一种名为TPC-CMA的微调框架，旨在解决Vision-Language Models中图像与文本嵌入空间之间的几何分离问题。该方法通过分解并联合优化Centroid Gap和Distribution Gap，显著提升了跨模态任务（如聚类和图像描述）的性能。

VeriAct: Beyond Verifiability -- Agentic Synthesis of Correct and Complete Formal Specifications

Md Rakib Hossain Misu, Iris Ma, Cristina V. Lopes

cs.SE cs.AI

本文提出了一种名为VeriAct的智能体框架, 用于合成正确且完整的JML形式化规约. 该框架通过结合LLM规划, 代码执行, 验证和Spec-Harness反馈的闭环迭代来修复规约, 实验表明其效果优于基于提示和提示优化的基线方法.

Data-Driven Reachability Analysis via Diffusion Models with PAC Guarantees

Yanliang Huang et al.

eess.SY cs.LG

本文提出了一种基于扩散模型的数据驱动可达性分析方法, 无需系统显式模型. 该方法通过去噪扩散概率模型从轨迹数据中学习状态分布, 并利用重构误差构建非一致性分数来定义可达集, 其阈值通过Learn Then Test过程校准, 以提供概率近似正确(PAC)保证. 在多个非线性系统上的实验验证了该方法在维持低于PAC界限的漏报率的同时, 能够扩展到传统网格或多项式方法难以处理的高维状态空间.

MambaVoiceCloning: Efficient and Expressive Text-to-Speech via State-Space Modeling and Diffusion Control

Sahil Kumar et al.

cs.SD cs.LG

本文提出了一种基于state-space model (SSM)和diffusion的文本转语音模型MambaVoiceCloning (MVC). 该模型在推理时完全移除了attention机制, 实现了线性复杂度的条件生成, 并在多个指标上取得了有竞争力的结果.

SANA I2I: A Text Free Flow Matching Framework for Paired Image to Image Translation with a Case Study in Fetal MRI Artifact Reduction

Italo Felix Santos, Gilson Antonio Giraldi, Heron Werner Junior

cs.CV cs.AI

本文提出了一种无需文本引导的、基于条件流匹配的成对图像到图像转换框架SANA-I2I, 并将其应用于胎儿MRI运动伪影消除任务. 该方法在潜在空间中学习从源图像到目标图像的映射, 并通过合成数据策略进行训练, 在少量推理步骤下取得了有竞争力的结果.

Vocal Prognostic Digital Biomarkers in Monitoring Chronic Heart Failure: A Longitudinal Observational Study

Fan Wu et al.

cs.SD cs.LG

本文通过一项为期两个月的纵向观察研究, 评估了语音特征在预测慢性心力衰竭患者健康状况恶化方面的潜力. 研究结果表明, 基于时间序列的语音特征在预测性能上优于标准的家庭监测指标.

Prompt-Guided Prefiltering for VLM Image Compression

Bardia Azizian, Ivan V. Bajic

eess.IV cs.AI

本文提出了一种轻量级的、即插即用的提示引导预过滤模块，用于提升面向视觉语言模型(VLM)的图像压缩效率。该方法通过识别与文本提示最相关的图像区域，在保持任务精度的同时显著降低了比特率。

Breaking Data Symmetry is Needed For Generalization in Feature Learning Kernels

Marcel Tomàs Bernal, Neil Rohit Mallinar, Mikhail Belkin

stat.ML cs.LG

本文研究了在特征学习核中, 通过 Recursive Feature Machine (RFM) 算法在代数任务上观察到的 "grokking" 现象. 实验发现, 泛化仅在训练数据的某种对称性被打破时发生, 并且 RFM 通过恢复数据固有的不变群作用来实现泛化.

Stable algorithms cannot reliably find isolated perceptron solutions

Shuyang Gong et al.

cs.CC cs.DS math-ph math.PR

本文研究了 binary perceptron 模型中孤立解的算法可发现性问题. 通过分析在随机扰动下解的稳定性, 证明了任何稳定算法可靠找到孤立解的概率存在严格上界.

MVNN: A Measure-Valued Neural Network for Learning McKean-Vlasov Dynamics from Particle Data

Liyao Lyu, Xinyue Yu, Hayden Schaeffer

math.NA cs.LG physics.comp-ph

本文提出了一种用于从粒子轨迹数据中学习McKean-Vlasov动力学的测度值神经网络(MVNN). 该方法通过一个嵌入网络学习柱面特征, 将概率测度映射为向量表示, 从而推广了标准神经网络以处理测度依赖的相互作用项. 理论分析证明了所生成动力学的适定性及其关联粒子系统的传播混沌性, 并在低维测度依赖假设下给出了通用逼近定理和定量逼近速率. 在一阶和二阶系统上的数值实验验证了其预测准确性和分布外泛化能力.

Go Big or Go Home: Simulating Mobbing Behavior with Braitenbergian Robots

Elaheh Sanoubari

cs.RO cs.AI

本文在Webots机器人仿真平台上, 模拟了一组Braitenbergian机器人中成对的躲避和围攻捕食者行为. 通过模拟不同围攻呼叫范围和机器人群体规模, 探讨了这些变量对围攻成功率的影响.

RAGShield: Provenance-Verified Defense-in-Depth Against Knowledge Base Poisoning in Government Retrieval-Augmented Generation Systems

KrishnaSaiReddy Patil

cs.CR cs.AI

本文提出了一个名为RAGShield的深度防御框架，用于保护政府RAG系统免受知识库投毒攻击。该框架借鉴了软件供应链溯源验证的思想，通过多层防护机制来检测和阻止恶意文档的注入与影响。

EvolveTool-Bench: Evaluating the Quality of LLM-Generated Tool Libraries as Software Artifacts

Alibek T. Kaliyev, Artem Maryanskyy

cs.SE cs.AI

本文提出了EvolveTool-Bench，一个用于评估LLM生成工具库质量的诊断性基准。它关注工具库层面的软件质量指标，而非仅下游任务完成度，揭示了仅关注任务完成度的评估所忽略的质量风险。

Improving Generalization of Deep Learning for Brain Metastases Segmentation Across Institutions

Yuchen Yang et al.

cs.CV cs.AI

本文提出了一种结合variational autoencoder (VAE)与maximum mean discrepancy (MMD)损失的预处理框架，用于提升脑转移瘤(brain metastases)分割模型在不同机构数据上的泛化能力。该方法在多个公共数据集上进行了验证，在多项分割指标上相比基线模型均有显著提升。

COTTA: Context-Aware Transfer Adaptation for Trajectory Prediction in Autonomous Driving

Seohyoung Park et al.

cs.CV cs.AI

本文研究了轨迹预测模型QCNet从美国数据迁移到韩国道路环境时的适应性问题. 通过比较多种训练策略, 发现利用预训练知识能显著提升性能, 其中冻结编码器并微调解码器在精度和效率间取得了最佳平衡.

Learning Humanoid Navigation from Human Data

Weizhuo Wang et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一种名为EgoNav的系统，使仿人机器人能够仅从5小时的人类步行数据中学习，在未见过的多样化环境中导航。该系统利用扩散模型预测未来轨迹分布，并结合视觉记忆与视频特征，通过混合采样方案实现实时推理。在离线评估和Unitree G1机器人上的零样本部署中，该方法在避障和多模态覆盖方面优于基线，并自然涌现出等待开门、绕开人群等行为。

Shapley-Guided Neural Repair Approach via Derivative-Free Optimization

Xinyu Sun et al.

cs.SE cs.LG

本文提出了一种名为SHARPEN的神经网络修复方法, 该方法结合了基于Deep SHAP的可解释故障定位与无导数优化策略. 通过使用CMA-ES算法进行修复, 该方法能够处理多种缺陷, 如后门和对抗性攻击, 并在实验中显示出优于基线方法的性能.

Denoising distances beyond the volumetric barrier

Han Huang, Pakawut Jiradilok, Elchanan Mossel

stat.ML cs.LG math.PR

本文提出了一种名为ORDER的新方法, 用于从随机几何图中重建流形的潜在几何. 该方法在多项式时间内实现了优于体积障碍的点对距离估计精度, 对于$d > 5$维的情况尤其有效. 基于此, 证明了重建的度量测度空间与真实流形之间的Gromov-Wasserstein距离收敛于$n^{-1/d}$的速率.

Internal State-Based Policy Gradient Methods for Partially Observable Markov Potential Games

Wonseok Yang, Thinh T. Doan

cs.MA cs.LG

本文研究了部分可观测马尔可夫势博弈中的多智能体强化学习问题. 作者利用共同信息框架处理部分可观测性和去中心化信息, 并引入内部状态来压缩累积信息以确保可处理性. 通过实现一种基于内部状态的自然策略梯度方法, 论文建立了该方法的非渐近收敛界, 并通过仿真验证了使用有限状态控制器相比仅使用当前观测值能带来性能提升.

First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models

Jiwoo Ha, Jongwoo Baek, Jinhyun So

cs.CV cs.AI cs.CL

本文提出了一种名为 First Logit Boosting (FLB) 的训练后免训练方法, 旨在缓解大型视觉语言模型 (LVLM) 中的物体幻觉问题. 该方法通过存储并重复利用首个生成 token 的 logit 来增强视觉信息的持续性, 从而抑制语言先验主导导致的长期衰减, 实验表明其能有效减少幻觉且计算开销极低.

Not My Truce: Personality Differences in AI-Mediated Workplace Negotiation

Veda Duddu et al.

cs.HC cs.AI cs.CL cs.CY

本文通过实验研究了人格特质如何调节AI对话辅导在工作场所谈判中的效果. 研究发现, 不同人格类型的参与者从不同类型的干预(理论驱动AI, 通用AI, 传统手册)中获益存在显著差异.

Automated Detection of Multiple Sclerosis Lesions on 7-tesla MRI Using U-net and Transformer-based Segmentation

Michael Maynord et al.

cs.CV cs.LG

本文针对7T MRI中多发性硬化病变的自动分割问题, 比较了基于Transformer的模型(如UNETR和SegFormer)与传统方法(LST-LPA, LST-AI)的性能. 实验表明, 在原生高分辨率数据上训练的Transformer模型在体素和病灶级别的指标上优于传统方法, 尤其能检测到更多小病灶, 但存在边界不稳定和偶发假阳性问题.

Executing as You Generate: Hiding Execution Latency in LLM Code Generation

Zhensu Sun et al.

cs.PL cs.AI cs.SE

本文提出了一种名为Eager的并行执行框架, 用于在LLM代码生成过程中隐藏执行延迟. 它通过将生成, 检测和执行流水线化, 显著降低了端到端延迟.

A Reasoning-Enabled Vision-Language Foundation Model for Chest X-ray Interpretation

Yabin Zhang et al.

cs.CV cs.AI cs.LG

本文提出了一个用于胸部X光片解读的推理增强视觉语言基础模型CheXOne. 该模型能够联合生成诊断预测和明确的、基于临床的推理轨迹, 连接视觉证据、放射学发现和最终预测. 在多个零样本评估任务中, CheXOne超越了现有的医学和通用领域基础模型, 其生成的报告在临床研究中显示出较高的实用性和效率.

MAESIL: Masked Autoencoder for Enhanced Self-supervised Medical Image Learning

Kyeonghun Kim et al.

cs.CV cs.AI

本文提出了一种名为MAESIL的3D masked autoencoder框架, 用于增强医学图像的自监督学习. 该方法通过引入"superpatch"作为输入单元, 并结合双重掩码策略, 旨在更有效地捕获CT扫描中的三维结构信息, 并在多个数据集上展示了优于现有自监督方法的重建性能.

Toward Optimal Sampling Rate Selection and Unbiased Classification for Precise Animal Activity Recognition

Axiu Mao et al.

cs.CV cs.AI

本文提出了一种用于动物活动识别的个体行为感知网络(IBA-Net), 以解决特定行为识别精度不足的问题. 该方法通过一个基于混合专家(MoE)的特征定制模块和一个基于神经坍缩(NC)的分类器校准模块, 在多个公开数据集上取得了优于现有方法的效果.

Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

Haibo Wang et al.

cs.CV cs.AI

本文提出了一个名为"Think, Act, Build (TAB)"的智能体框架, 用于零样本3D视觉定位. 该框架将任务解耦, 利用2D视觉语言模型处理语义, 并结合多视图几何来构建目标的3D表示, 从而在基准测试中取得了优于现有方法的结果.

MATHENA: Mamba-based Architectural Tooth Hierarchical Estimator and Holistic Evaluation Network for Anatomy

Kyeonghun Kim et al.

cs.CV cs.AI

本文提出了一种基于Mamba架构的统一框架MATHENA, 用于处理口腔全景片(OPG)中的多项诊断任务. 该框架整合了多分辨率检测器与轻量级分割网络, 并在一个包含超过1.5万个标注实例的基准数据集上进行了评估.

Activation Saturation and Floquet Spectrum Collapse in Neural ODEs

Nikolaos M. Matzakos

math.DS cs.LG

本文研究了具有饱和激活函数(如$\tanh$, sigmoid)的自治Neural ODEs $\dot{h}=f_\theta(h)$的动力学性质。证明了当多层感知机$f_\theta$的$q$个隐藏层在区域$U$上满足$|\sigma'|\le\delta$时，输入Jacobian的范数$\norm{Df_\theta(x)}$会被衰减，这导致任何位于$U$内的$T$-周期轨道$\gamma$上的所有Floquet (Lyapunov)指数都被压缩到一个区间内。随着饱和加深($\delta\to 0$)，所有指数被驱动至零，这限制了系统的强收缩和混沌敏感性，为这类模型在特定任务(如Morris--Lecar神经元模型)上的经验性失败提供了理论解释。

Scenario theory for multi-criteria data-driven decision making

Simone Garatti et al.

stat.ML cs.LG eess.SY math.OC

本文为多准则数据驱动决策问题建立了一个通用的scenario理论框架. 该方法能够基于多个数据集, 对多个准则的联合鲁棒性提供更精确的概率保证.

Multi-Camera View Scaling for Data-Efficient Robot Imitation Learning

Yichen Xie et al.

cs.RO cs.CV cs.LG

本文提出了一种通过扩展相机视角来增强机器人模仿学习数据效率的框架. 该方法利用多视角同步视频生成伪演示数据, 提升了策略的泛化能力, 并在仿真和真实任务中验证了有效性.

On the average-case complexity landscape for Tensor-Isomorphism-complete problems over finite fields

Tiange Li et al.

cs.CC cs.DS math.PR

本文研究了有限域上几个Tensor Isomorphism-complete问题的平均情况复杂度。作者为代数同构和矩阵码共轭问题设计了在$1/\Theta(q)$输入上成功的平均情况多项式时间算法，并为4-张量同构问题设计了在$1/q^{\Theta(1)}$输入上成功的算法。主要技术贡献是将随机矩阵的谱性质引入到相关算法中，并推动了有限域上随机矩阵理论的新研究。

No quantum advantage implies improved bounds and classical algorithms for the binary paint shop problem

Mark Goh, Lara Caroline Pereira dos Santos, Matthias Sperl

quant-ph cs.DS math.OC

本文研究了 binary paint shop problem (BPSP), 这是一个 APX-hard 的组合优化问题. 通过分析量子算法 (如 QAOA 和量子退火) 与经典启发式算法 (如 RSG 和 MF-AOA) 的性能, 发现对于此类稀疏优化问题, 对数深度的 QAOA 并未展现出量子优势, 并且存在经典算法 (MF-AOA) 的性能优于已知的量子方法.

Neural Ordinary Differential Equations for Modeling Socio-Economic Dynamics

Sandeep Kumar Samota, Snehashish Chakraverty, Narayan Sethi

math.DS cs.LG

本文应用 Neural ODE 框架，利用多层感知机表示系统的时间梯度，对印度奥里萨邦的贫困动态进行了数据驱动的建模分析。模型通过伴随灵敏度方法进行训练，能够高精度复现观测数据，展示了该方法在社会经济系统建模中的潜力。

On rankings in multiplayer games with an application to the game of Whist

Alexis Coyette et al.

cs.GT cs.LG

本文提出了一种用于多人游戏的 Bradley-Terry 模型扩展，并采用了一种现有算法进行适配。该方法在合成数据集和真实的纸牌游戏数据集上进行了演示。

Streaming Model Cascades for Semantic SQL

Paweł Liskowski, Kyle Schmaus

cs.DB cs.AI

本文提出了两种适用于流式、分区执行的模型级联算法, 旨在降低在分布式数据仓库中执行调用大型语言模型的语义SQL操作的成本. SUPG-IT算法扩展了统计框架以提供联合的precision-recall保证, 而GAMCAL算法则通过学习一个校准模型来直接优化成本与质量的权衡.

Procela: Epistemic Governance in Mechanistic Simulations Under Structural Uncertainty

Kinson Vernet

physics.comp-ph cs.AI cs.CE

本文提出了一个名为Procela的Python框架, 用于处理机制性模拟中的结构不确定性. 该框架允许变量作为认知主体, 并在运行时根据认知信号改变系统拓扑, 从而让模拟能够测试自身的假设, 并以抗菌素耐药性传播为例进行了验证.

Internal APIs Are All You Need: Shadow APIs, Shared Discovery, and the Case Against Browser-First Agent Architectures

Lewis Tham, Nicholas Mac Gregor Garcia, Jungpil Hahn

cs.ET cs.AI

本文提出了一种名为Unbrowse的系统，通过构建共享的API路由图来避免网络智能体重复进行低效的浏览器自动化操作。该系统利用网站已有的内部API，将发现过程转化为一个可缓存的索引，从而显著提升了任务执行速度。

Inverse-Free Sparse Variational Gaussian Processes

Stefano Cortinovis et al.

stat.ML cs.LG

本文提出了一种改进的 inverse-free 稀疏变分高斯过程方法, 通过设计一个条件更好的变分下界和推导仅需矩阵乘法的自然梯度更新, 提高了优化的稳定性和收敛性. 该方法旨在克服传统方法在低精度、大规模并行硬件上的计算瓶颈, 并在回归和分类基准测试中展示了其作为现有模型直接替代方案的潜力.

AutoEG: Exploiting Known Third-Party Vulnerabilities in Black-Box Web Applications

Ruozhao Yang et al.

cs.CR cs.AI cs.SE

本文提出了一个名为AutoEG的多智能体框架, 用于自动化生成针对黑盒Web应用程序的漏洞利用(exploit). 该框架首先从非结构化的漏洞信息中提取精确的触发逻辑并封装为可复用的函数, 然后通过与目标应用的反馈驱动交互来迭代优化攻击载荷. 实验表明, 其在大量真实漏洞上的成功率显著优于现有基线方法.

GRASP: Gradient Realignment via Active Shared Perception for Multi-Agent Collaborative Optimization

Sihan Zhou et al.

cs.MA cs.AI

本文提出了一种名为GRASP的新框架, 旨在解决多智能体协作中的非平稳性问题. 该框架通过主动共享感知来对齐梯度, 并在实验中展示了其性能.

A Benchmark of State-Space Models vs. Transformers and BiLSTM-based Models for Historical Newspaper OCR

Merveilles Agbeti-messan et al.

cs.CV cs.LG

本文首次将 State-Space Models (SSMs), 特别是 Mamba, 应用于历史报纸的端到端 OCR 任务, 以解决 Transformer 模型在处理长序列时的二次复杂度问题. 通过大规模基准测试, 实验表明基于 Mamba 的模型在保持竞争力的准确率的同时, 显著提升了推理速度和内存效率.

A CEFR-Inspired Classification Framework with Fuzzy C-Means To Automate Assessment of Programming Skills in Scratch

Ricardo Hidalgo-Aragón, Jesús M. González-Barahona, Gregorio Robles

cs.CY cs.AI cs.LG cs.SE

本文提出了一种基于CEFR的Scratch编程技能自动化评估框架, 运用Fuzzy C-Means聚类方法对大量项目进行分析. 该框架能够将学习者映射到不同的能力等级, 并识别课程体系中的系统性瓶颈.

IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

Dong-Jae Lee, Sunghyun Baek, Junmo Kim

cs.CV cs.AI

本文提出了一种基于attention机制dual form视角的token pruning方法. 该方法将attention重新表述为一个隐式线性层, 其权重由每个token的key-value对生成, 并设计了一种新的度量来评估token的信息量和冗余度. 实验表明该方法在性能和效率之间取得了更好的平衡.

Multimodal Language Models Cannot Spot Spatial Inconsistencies

Om Khangaonkar, Hadi J. Rad, Hamed Pirsiavash

cs.CV cs.CL cs.LG

本文提出了一个评估多模态大语言模型(MLLMs)空间一致性理解能力的新任务, 即识别多视角图像中违反3D运动一致性的物体. 作者通过生成逼真的空间不一致图像对进行系统评估, 发现当前最先进的MLLMs在此任务上表现远逊于人类, 且对3D结构的理解是脆弱和不完整的.

Revisiting Human-in-the-Loop Object Retrieval with Pre-Trained Vision Transformers

Kawtar Zaher, Olivier Buisson, Alexis Joly

cs.CV cs.HC cs.IR

本文利用预训练的Vision Transformer (ViT) 重新审视了Human-in-the-Loop Object Retrieval任务。研究探讨了在包含多个物体的复杂场景中，如何通过主动学习循环和不同的特征表示策略来有效检索目标物体类别。

Deconfounding Scores and Representation Learning for Causal Effect Estimation with Weak Overlap

Oscar Clivio et al.

stat.ML cs.LG stat.ME

本文提出了一种名为"去混淆分数"的特征表示方法, 用于在弱重叠条件下进行因果效应估计. 该方法旨在通过优化特征表示来改善重叠性, 并在特定模型假设下证明了预后分数的最优性.

DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale

Sicheng Zuo et al.

cs.CV cs.AI cs.RO

本文提出了一种用于自动驾驶的Vision-Geometry-Action (VGA)模型DVGT-2, 它通过在线处理方式联合输出稠密3D几何重建和轨迹规划. 该方法采用了时序因果attention和特征缓存机制以提高效率, 并在多个数据集上展示了优越的几何重建能力与跨配置的泛化性.

LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Patrick Amadeus Irawan et al.

cs.CV cs.CL

本文提出了一种名为LinguDistill的无适配器蒸馏方法，旨在恢复视觉-语言模型(VLMs)中因多模态适应而受损的语言能力。该方法通过层级的KV-cache共享，利用原始冻结的语言模型作为教师进行选择性跨模态蒸馏，在恢复语言任务性能的同时保持了多模态任务的视觉基础。

Accurate and Scalable Matrix Mechanisms via Divide and Conquer

Guanlin He et al.

cs.DB cs.LG

本文提出了一种名为QuerySmasher的、基于分治策略的可扩展矩阵机制。该方法将高维查询工作负载分解为相互正交的低维子问题，利用现有低维机制独立求解后再组合，从而高效地回答原始查询。实验表明，该方法在可扩展性和准确性上优于之前的ResidualPlanner等方法。

PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding

Nan Wang et al.

cs.CV cs.AI cs.CL

本文提出了一种名为 PixelPrune 的训练无关方法，用于在视觉语言模型(VLMs)处理高分辨率图像时减少视觉 token 的数量。该方法通过预测编码在像素空间识别并剪枝冗余的图像块，从而加速整个推理流程，在文档和 GUI 理解任务上实现了显著的推理加速。

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

Zhuchenyang Liu, Yao Zhang, Yu Xiao

cs.CV cs.CL

本文构建了IKEA-Bench基准，系统评估了多种Vision-Language Models在跨描绘装配指令对齐任务上的表现。研究发现，视觉编码是影响跨描绘鲁棒性的主要瓶颈，而架构家族比参数量更能预测对齐精度。

Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

Razvan Mihai Popescu et al.

cs.SE cs.AI cs.LG

本文通过构建包含约$110,000$个开源pull request的数据集，比较了五种主流coding agent（如GitHub Copilot）在代码贡献活动模式上的差异。研究发现，尽管AI代理在开源项目中的活动日益增多，但其生成的代码随时间推移产生的变更（churn）比人类编写的代码更多。

Multi-Mode Quantum Annealing for Variational Autoencoders with General Boltzmann Priors

Gilhan Kim, Daniel K. Park

quant-ph cond-mat.stat-mech cs.LG

本文提出了一种结合量子退火与变分自编码器的方法, 用于训练具有Boltzmann机先验的生成模型. 该方法在训练、无条件生成和条件生成三种模式下使用量子退火进行采样, 并在实验中展示了优于高斯先验模型的性能.

Representation Selection via Cross-Model Agreement using Canonical Correlation Analysis

Dylan B. Lewis, Jens Gregor, Hector Santos-Villalobos

cs.CV cs.AI

本文提出了一种基于典型相关分析(Canonical Correlation Analysis, CCA)的后处理算子，用于提升预训练图像编码器表征的效率。该方法通过利用两个编码器输出之间的共享结构，进行表征选择和降维，在多个基准数据集上取得了优于基线及PCA方法的效果。

Learning Quantised Structure-Preserving Motion Representations for Dance Fingerprinting

Arina Kharlamova et al.

cs.CV cs.AI

本文提出了一个名为DANCEMATCH的端到端框架, 用于基于运动的舞蹈检索任务. 该方法通过Skeleton Motion Quantisation (SMQ)和Spatio-Temporal Transformers (STT)构建离散的运动签名, 并利用DANCE RETRIEVAL ENGINE (DRE)进行高效检索.

Do Phone-Use Agents Respect Your Privacy?

Zhengyang Tang et al.

cs.CR cs.AI cs.CL cs.LG

本文提出了一个名为MyPhoneBench的可验证评估框架, 用于衡量手机使用智能体在执行任务时对用户隐私的尊重程度. 研究发现, 当前前沿模型在任务成功率、隐私合规性和偏好记忆使用上表现各异, 且仅评估成功率会高估其实际部署准备度.

Bridging Structured Knowledge and Data: A Unified Framework with Finance Applications

Yi Cao et al.

stat.ML cs.AI cs.LG

本文提出了一种名为SKINNs的统一估计框架, 它将结构化知识作为可微约束嵌入到灵活的神经网络函数逼近中. 该框架在金融期权定价等应用中展示了改进的样本外性能和参数稳定性.

Focal plane wavefront control with model-based reinforcement learning

Jalo Nousiainen et al.

astro-ph.IM cs.LG cs.RO

本文提出了一种基于模型强化学习的焦平面波前控制方法PO4NCPA, 用于校正天文高对比度成像中的非共路像差. 该方法通过序列相位多样性, 直接从焦平面图像中学习并优化相位校正, 无需先验系统模型. 数值模拟表明, 该方法能有效补偿静态和动态像差, 适用于多种望远镜和日冕仪配置.

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

Jinkun Hao et al.

cs.CV cs.AI

本文提出了一个名为EgoSim的闭环第一人称世界模拟器，用于生成具有空间一致性的交互视频并持续更新底层3D场景状态。该方法通过从大规模单目视频中提取数据来克服训练数据瓶颈，并在视觉质量和空间一致性上优于现有方法。

Query-Conditioned Evidential Keyframe Sampling for MLLM-Based Long-Form Video Understanding

Yiheng Wang et al.

cs.CV cs.AI cs.LG

本文提出了一种基于信息瓶颈理论的证据驱动关键帧采样框架, 用于解决MLLM处理长视频时的上下文长度和计算成本限制. 该方法将关键帧选择表述为最大化选定帧与查询之间的条件互信息, 并通过分解优化和查询条件证据评分网络实现高效采样.

OrgAgent: Organize Your Multi-Agent System like a Company

Yiru Wang et al.

cs.MA cs.AI

本文提出了一个名为OrgAgent的公司式分层多智能体框架，将协作分解为治理、执行与合规三层。该框架在多种推理任务中展现出优于扁平结构的性能与效率。

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

Jingjie Ning, Xueqi Li, Chengyu Yu

cs.SE cs.AI cs.CL

本文通过设计对照实验, 将多LLM修订流程的收益分解为三个可加部分: 重解, 脚手架和内容. 研究发现, 在多项选择题任务中, 大部分收益源于更强模型的重解, 而在代码生成任务中, 两阶段提示则因脚手架效应而保持有用.

Automated Framework to Evaluate and Harden LLM System Instructions against Encoding Attacks

Anubhab Sahu, Diptisha Samanta, Reza Soosahabi

cs.CR cs.AI

本文提出了一个自动化框架, 用于评估和加固LLM系统指令, 防止其通过编码攻击泄露敏感信息. 该框架通过将提取请求重构为编码或结构化输出任务来测试指令保密性, 并展示了一种基于单样本指令重塑的缓解策略.

Adversarial Attacks in AI-Driven RAN Slicing: SLA Violations and Recovery

Deemah H. Tashman, Soumaya Cherkaoui

cs.NI cs.AI

本文研究了针对AI驱动的RAN slicing（无线接入网切片）的对抗性攻击。攻击者通过选择性干扰来影响基于深度强化学习的资源分配，导致服务等级协议违规，且恢复过程缓慢。

VibeGuard: A Security Gate Framework for AI-Generated Code

Ying Xie

cs.CR cs.AI

本文提出了一个名为VibeGuard的安全门框架，旨在检测和防止由AI生成代码引入的特定类型安全漏洞。该框架针对现有静态分析工具未覆盖的盲点，并在合成项目实验中展示了高召回率和精确度。

ProOOD: Prototype-Guided Out-of-Distribution 3D Occupancy Prediction

Yuheng Zhang et al.

cs.CV cs.LG cs.RO eess.IV

本文提出了一种用于3D语义占据预测的轻量级方法ProOOD, 旨在缓解长尾类别偏差和提升对分布外输入的鲁棒性. 该方法结合了原型引导的特征优化与无需训练的OOD评分机制, 在多个基准数据集上取得了先进的性能.

TRACE: Training-Free Partial Audio Deepfake Detection via Embedding Trajectory Analysis of Speech Foundation Models

Awais Khan et al.

cs.SD cs.AI cs.CV

本文提出了一种无需训练的音频深度伪造检测方法TRACE, 通过分析冻结的speech foundation model的embedding轨迹的一阶动态变化来检测部分伪造音频. 该方法在多个基准测试上取得了与有监督方法相当的性能, 展示了预训练模型内部表征的动态特性可作为有效的取证信号.

Inverse Design of Optical Multilayer Thin Films using Robust Masked Diffusion Models

Jonas Schaible et al.

physics.optics cs.LG

本文提出了一种名为 OptoLlama 的 masked diffusion 模型，用于光学多层薄膜的逆向设计。该模型将薄膜结构表示为序列，通过条件生成从目标光谱中推断出材料与厚度，在测试集上显著降低了光谱误差。

Trust and Reliance on AI in Education: AI Literacy and Need for Cognition as Moderators

Griffin Pitts, Neha Rani, Weedguet Mildort

cs.HC cs.AI cs.CY cs.ET

本文通过行为实验研究了学生对AI助手的信任如何影响其在编程任务中的适当依赖行为, 并探讨了AI素养和认知需求等个体特征的调节作用. 研究发现, 更高的信任与更低的适当依赖相关, 且这种关系受到AI素养和认知需求的显著调节.

Lightweight Prompt-Guided CLIP Adaptation for Monocular Depth Estimation

Reyhaneh Ahani Manghotay, Jie Liang

cs.CV cs.AI cs.LG

本文提出了一种名为MoA-DepthCLIP的参数高效框架，用于单目深度估计。该方法通过轻量级的Mixture-of-Adapters模块和选择性微调，在NYU Depth V2基准上取得了有竞争力的结果，同时显著减少了可训练参数。

Looking into a Pixel by Nonlinear Unmixing -- A Generative Approach

Maofeng Tang, Hairong Qi

cs.CV cs.AI eess.IV

本文提出了一种基于生成对抗网络(GAN)的高光谱非线性解混方法, 称为LCGU net. 该方法通过一个双向GAN框架和循环一致性约束, 无需显式的混合模型先验知识即可从像素中分离端元(endmember)和丰度(abundance).

Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking

Shaifalee Saxena, Rafael Fierro, Alexander Scheinker

cs.RO cs.LG

本文提出了一种结合深度强化学习与有界极值搜索的混合控制器, 用于提升机械臂操作任务在分布偏移下的鲁棒性. 该方法在标准条件下训练DDPG策略, 并在部署时引入有界极值搜索模块来适应训练时未见的动态变化, 在包含时变目标和空间变化摩擦等场景中进行了验证.

AdaLoRA-QAT: Adaptive Low-Rank and Quantization-Aware Segmentation

Prantik Deb et al.

eess.IV cs.AI cs.CV

本文提出了一种名为AdaLoRA-QAT的两阶段微调框架，用于医学图像分割。该方法结合了自适应低秩编码器调整和量化感知训练，在保持分割精度的同时显著减少了模型参数和存储需求。

Safe learning-based control via function-based uncertainty quantification

Abdullah Tokmak et al.

eess.SY cs.LG math.OC

本文提出了一种基于随机函数建模和scenario approach的uncertainty quantification方法, 用于构建高概率成立的uncertainty tubes. 该方法被集成到safe Bayesian optimization中, 并在Furuta pendulum上进行了安全控制参数调优的验证.

A ROS 2 Wrapper for Florence-2: Multi-Mode Local Vision-Language Inference for Robotic Systems

J. E. Domínguez-Vidal

cs.RO cs.AI cs.CV

本文介绍了一个为 Florence-2 视觉语言模型开发的 ROS 2 封装器, 旨在促进其在机器人系统中的实际集成. 该封装器提供了多种交互模式, 支持本地部署, 并通过实验验证了其在消费级硬件上的可行性.

True (VIS) Lies: Analyzing How Generative AI Recognizes Intentionality, Rhetoric, and Misleadingness in Visualization Lies

Graziano Blasilli, Marco Angelini

cs.HC cs.CL cs.CV

本文评估了多种多模态大语言模型在识别和分析误导性可视化方面的能力. 研究基于一个包含误导性COVID-19推文和真实世界案例的数据集, 将模型表现与可视化专家的判断进行了比较.

From Validity to Inter-Subjectivity: An Argument for Reliability Signals in Search Environments

Frans van der Sluis

cs.DL cs.IR

本文探讨了搜索引擎和信息平台在传播错误信息中的作用, 认为传统的以有效性(validity)为中心的应对框架存在不足. 作者主张在搜索环境中, 应转向关注主体间性(inter-subjectivity)和可靠性信号(reliability signals).

Learning and Generating Mixed States Prepared by Shallow Channel Circuits

Fangjun Hu et al.

quant-ph cond-mat.stat-mech cs.CC cs.LG

本文研究了在有限维格点上学习生成混合态的问题, 聚焦于平凡相中的任意态. 作者证明了仅通过测量访问即可高效学习此类混合态, 并给出了一个输出近似生成该态的浅层局域信道电路的算法.

Neural Harmonic Textures for High-Quality Primitive Based Neural Reconstruction

Jorge Condor et al.

cs.CV cs.AI cs.GR cs.LG

本文提出了一种名为Neural Harmonic Textures的表示方法，用于增强基于图元（如3D高斯）的神经重建。该方法通过在虚拟支架上锚定特征并使用周期性激活函数来建模高频细节，从而在实时新视角合成任务中取得了先进的结果。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.CL

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others