bluearXiv-ai - 2026-04-07

📄 所有论文 ↑ 回顶部

cs.LG

Automated Conjecture Resolution with Formal Verification ⭐ 精选

Haocheng Ju et al.

cs.LG cs.AI

本文提出了一个整合自然语言推理与形式化验证的自动化框架, 用于解决研究级数学问题. 该框架包含非正式推理智能体 Rethlas 和形式化验证智能体 Archon, 前者模仿人类数学家的工作流并结合定理搜索引擎 Matlas 来探索解法和构建候选证明, 后者则通过结构化任务分解、迭代精化和自动证明合成, 将非正式论证转化为可机器检查的 Lean 4 形式化项目. 通过此框架, 作者自动解决了一个交换代数中的公开问题, 并在 Lean 4 中形式化验证了其证明, 展示了结合检索工具的非正式与形式化推理系统协同工作以产生可验证结果的潜力.

Integrating Artificial Intelligence, Physics, and Internet of Things: A Framework for Cultural Heritage Conservation

Carmine Valentino et al.

cs.LG math.NA

本文提出了一个结合人工智能、物理知识和物联网技术的框架，用于文化遗产保护。该框架集成了物理信息神经网络和降阶模型，以高效处理三维模型并模拟其退化过程。

Scaling DPPs for RAG: Density Meets Diversity

Xun Sun et al.

cs.LG cs.AI cs.CL

本文提出了一种用于RAG的多样性感知检索机制ScalDPP，它通过一个轻量级的P-Adapter整合了Determinantal Point Processes (DPPs)来建模文档块间的依赖关系并进行互补性上下文选择。此外，作者还设计了一种新的集合级目标函数Diverse Margin Loss (DML)来优化检索结果。实验结果表明该方法优于基线模型。

DRAFT: Task Decoupled Latent Reasoning for Agent Safety

Lin Wang et al.

cs.LG

本文提出了一种名为DRAFT的潜在推理框架, 用于提升工具调用型LLM智能体的安全性监测. 该方法通过一个提取器将冗长的交互轨迹压缩为连续的潜在草稿, 再通过一个推理器结合草稿与原始轨迹进行安全判断, 避免了显式摘要带来的信息损失. 在多个基准测试中, DRAFT的性能优于现有基线方法.

General Explicit Network (GEN): A novel deep learning architecture for solving partial differential equations

Genwei Ma et al.

cs.LG cs.AI math.AP physics.med-ph

本文提出了一种名为General Explicit Network (GEN)的新型深度学习架构, 用于求解偏微分方程(PDEs). 该方法通过点对函数(point-to-function)的求解方式, 利用先验知识构造基函数进行拟合, 旨在提升解的鲁棒性和可扩展性.

Apparent Age Estimation: Challenges and Outcomes

Justin Rainier Go et al.

cs.LG cs.NE

本文回顾了基于DEX方法的表观年龄估计模型, 重点评估了Mean-Variance Loss (MVL)和Adaptive Mean-Residue Loss (AMRL)等分布学习技术在精度和公平性上的表现. 研究发现, 尽管AMRL取得了先进的准确率, 但在不同人口群体间仍存在精度与公平性的权衡, 并且模型对亚洲和非裔美国人群体的特征关注不一致, 导致性能显著下降.

NativeTernary: A Self-Delimiting Binary Encoding with Unary Run-Length Hierarchy Markers for Ternary Neural Network Weights, Structured Data, and General Computing Infrastructure

Maharshi Savdhariya

cs.LG eess.SP

本文提出了一种名为 NativeTernary 的二进制编码方案, 用于表示三元权重或数据. 其核心是利用特定的 2-bit 对作为分隔符, 并结合一元游程编码来表示语义层次结构的深度. 文章还讨论了该编码在多种计算和存储场景下的潜在应用.

Towards Intelligent Energy Security: A Unified Spatio-Temporal and Graph Learning Framework for Scalable Electricity Theft Detection in Smart Grids

AbdulQoyum A. Olowookere et al.

cs.LG cs.AI

本文提出了一种用于智能电网中窃电检测的统一时空与图学习框架, 集成了监督机器学习、深度学习时间序列建模、非侵入式负载监测和图神经网络. 该框架通过结合多种模型来捕捉时空消费模式, 实验结果表明其在检测异常和识别高风险节点方面具有良好性能.

Hardware-Oriented Inference Complexity of Kolmogorov-Arnold Networks

Bilal Khalid et al.

cs.LG

本文提出了评估 Kolmogorov-Arnold Networks (KANs) 硬件推理复杂度的平台无关公式, 以 Real Multiplications (RM), Bit Operations (BOP) 和 Number of Additions and Bit-Shifts (NABS) 作为度量标准. 该分析涵盖了多种 KAN 变体, 旨在为早期架构决策和跨平台比较提供便利.

From Model-Based Screening to Data-Driven Surrogates: A Multi-Stage Workflow for Exploring Stochastic Agent-Based Models

Paul Saves et al.

cs.LG cs.AI

本文提出了一种用于探索随机Agent-Based Models (ABMs)的多阶段工作流程, 该流程集成了实验设计(DOE)与机器学习代理模型. 通过一个捕食者-猎物案例研究, 该方法首先进行基于模型的自动筛选以识别关键变量, 然后训练机器学习模型来捕捉剩余的非线性交互效应.

The limits of bio-molecular modeling with large language models : a cross-scale evaluation

Yaxin Xu et al.

cs.LG q-bio.QM

本文通过构建跨尺度生物分子基准测试 BioMol-LLM-Bench，系统评估了大型语言模型在生物分子建模中的能力与局限。研究发现，现有模型在分类任务上表现良好，但在回归任务和需要深层机理理解的问题上仍存在不足。

Scalable Variational Bayesian Fine-Tuning of LLMs via Orthogonalized Low-Rank Adapters

Haotian Xiang, Bingcong Li, Qin Lu

cs.LG stat.ML

本文提出了一种名为PoLAR-VBLL的可扩展变分贝叶斯微调方法, 用于提升大型语言模型(LLMs)的不确定性量化(UQ)能力. 该方法结合了正交化的低秩适配器参数化和交替优化, 在多个常识推理任务上验证了其有效性.

Beauty in the Eye of AI: Aligning LLMs and Vision Models with Human Aesthetics in Network Visualization

Peng Zhang et al.

cs.LG

本文探讨了使用 large language models (LLMs) 和 vision models (VMs) 作为人类审美判断的代理，以解决网络可视化中大规模获取人类偏好标签的难题。通过用户研究收集数据，并展示了通过 prompt engineering 和置信度过滤，AI 模型可以达到与人类标注者相当的评估水平。

Adaptive Threshold-Driven Continuous Greedy Method for Scalable Submodular Optimization

Mohammadreza Rostami, Solmaz S. Kia

cs.LG math.CO

本文提出了一种名为ATCG的自适应阈值连续贪心算法, 用于解决带拟阵约束的子模最大化问题. 该方法通过门控梯度评估来限制通信开销, 在保持与连续贪心算法相近目标值的同时, 显著减少了代理间的通信负担.

Adversarial Robustness of Deep State Space Models for Forecasting

Sribalaji C. Anand, George J. Pappas

cs.LG eess.SY

本文研究了用于时间序列预测的深度 state-space model (SSM) 在对抗性扰动下的鲁棒性。文章通过控制理论视角分析了 Spacetime SSM 预测器，并探讨了无需梯度计算即可构造有效攻击的方法。

MetaSAEs: Joint Training with a Decomposability Penalty Produces More Atomic Sparse Autoencoder Latents

Matthew Levinson

cs.LG cs.AI

本文提出了一种通过联合训练和可分解性惩罚来提升稀疏自编码器(Sparse Autoencoder, SAE)潜在特征原子性的方法. 该方法训练一个元SAE来稀疏重构主SAE的解码器列, 从而惩罚潜在方向位于其他主方向张成的子空间中的情况. 实验表明, 该方法在GPT-2 large上降低了平均$|\varphi|$并提升了自动可解释性分数, 在Gemma 2 9B上也显示出有希望的方向性结果.

Olmo Hybrid: From Theory to Practice and Back

William Merrill et al.

cs.LG cs.CL

本文探讨了混合模型(结合attention和recurrent layers)在语言建模中的潜力. 通过理论分析和实践训练Olmo Hybrid模型, 发现其在预训练效率和下游任务性能上可能优于纯transformer架构.

Neural Operators for Multi-Task Control and Adaptation

David Sewell et al.

cs.LG eess.SY

本文提出了一种基于 neural operator 的框架来解决多任务最优控制问题. 该方法通过一个具有 permutation-invariant 结构的网络来近似从任务描述到最优控制律的映射算子, 并在多个控制环境中展示了其泛化能力.

Earth Embeddings Reveal Diverse Urban Signals from Space

Wenjing Gong et al.

cs.LG cs.CY

本文评估了三种 Earth embedding 模型在预测美国城市邻里尺度指标方面的表现. 研究发现, 这些嵌入能有效捕捉与建成环境结构直接相关的城市信号, 但在预测受细粒度行为影响的指标时效果有限.

Super Agents and Confounders: Influence of surrounding agents on vehicle trajectory prediction

Daniel Jost et al.

cs.LG cs.RO

本文分析了当前先进的轨迹预测模型, 发现许多周围智能体(agent)的信息反而会降低预测精度. 作者提出集成Conditional Information Bottleneck (CIB)来压缩并忽略无益的特征, 实验表明该方法能提升预测性能和鲁棒性.

Investigating Data Interventions for Subgroup Fairness: An ICU Case Study

Erin Tan, Judy Hanwen Shen, Irene Y. Chen

cs.LG

本文通过分析eICU和MIMIC-IV两个医疗数据集，探讨了通过合并不同数据源来提升机器学习模型在子群体上公平性的局限性。研究发现，简单地增加数据可能对公平性和性能产生不可预测的影响，而结合数据层面的干预与模型层面的校准是更有效的策略。

Improving Feasibility via Fast Autoencoder-Based Projections

Maria Chzhen, Priya L. Donti

cs.LG math.OC

本文提出了一种基于autoencoder的数据驱动方法, 用于快速修正学习或控制系统中违反复杂约束的预测. 该方法通过对抗训练学习可行集的凸latent表示, 从而在latent空间进行高效投影. 实验表明该方法能以较低计算成本有效处理非凸约束.

Online learning of smooth functions on $\mathbb{R}$

Jesse Geneson, Kuldeep Singh, Alexander Wang

cs.LG

本文研究了在实数域$\mathbb{R}$上对抗性在线学习实值函数的问题. 作者发现, 对于标准的在线学习模型和特定的函数类$\mathcal{G}_q$, 对手可以迫使学习者产生无限的累积损失, 这表明标准模型在无界域上是不适定的. 为了克服这一障碍, 论文分析了三种修改后的学习场景, 这些场景限制了远离已观测输入的查询点的影响, 并对其中两种场景的损失上界给出了精确刻画. 对于第三种加权损失场景, 作者识别出一个清晰的阈值现象: 如果权重函数$g$衰减过慢, 对手仍能迫使加权损失无限大; 而对于快速衰减的权重(如指数衰减), 则在$p=q=2$的情况下得到了有限且精确的保证. 最后, 论文将研究推广到多维切片函数类$\mathcal{G}_{q,d}$, 并证明了一个尖锐的二分现象: 在一维情况下某些机制下可以获得有限的最优值, 但对于所有$d \ge 2$, 即使采用修改后的场景, 对手依然可以迫使损失无限大.

Choosing the Right Regularizer for Applied ML: Simulation Benchmarks of Popular Scikit-learn Regularization Frameworks

Benjamin S. Knight, Ahsaas Bajaj

cs.LG stat.ML

本文通过大规模模拟实验, 比较了 scikit-learn 中几种经典正则化框架 (Ridge, Lasso, ElasticNet, Post-Lasso OLS) 的性能. 研究发现, 在高样本-特征比条件下, 前三种方法预测精度相近, 但在高共线性与小样本场景下, Lasso 的变量选择能力 (recall) 会急剧下降.

Simple yet Effective: Low-Rank Spatial Attention for Neural Operators

Zherui Yang et al.

cs.LG

本文提出了一种用于神经算子的低秩空间注意力模块, 通过将高维点特征压缩到低维潜在空间来处理全局相互作用. 该方法仅使用标准的Transformer组件构建, 在实验中实现了较高的精度和效率.

Evaluation of Bagging Predictors with Kernel Density Estimation and Bagging Score

Philipp Seitz, Jan Schmitt, Andreas Schiffler

cs.LG

本文提出了一种使用Kernel Density Estimation (KDE) 从bagging predictors集合中确定代表性预测值$y_{BS}$及其置信度指标Bagging Score ($\beta_{BS}$) 的方法. 该方法在非线性回归任务中表现优于传统的均值或中位数聚合方式, 并在多个误差指标上取得了领先的排名.

BlazeFL: Fast and Deterministic Federated Learning Simulation

Kitsuya Azuma, Takayuki Nishio

cs.LG

本文提出了一个用于联邦学习仿真的轻量级框架 BlazeFL, 它通过基于线程的并行化和确定性的随机数管理, 旨在解决单节点仿真中效率与可复现性之间的权衡问题. 该框架避免了进程间通信开销, 并在固定软硬件环境下能保证多次高并发运行的比特级结果一致性.

Neural Global Optimization via Iterative Refinement from Noisy Samples

Qusay Muzaffar, David Levin, Michael Werman

cs.LG cs.AI

本文提出了一种基于神经网络的全局优化方法, 通过迭代精炼从带噪声的样本中寻找黑箱函数的全局最小值. 该方法在合成多模态测试函数上表现优于传统的样条初始化方法.

Algebraic Diversity: Group-Theoretic Spectral Estimation from Single Observations

Mitchell A. Thornton

cs.LG cs.IT eess.SP

本文提出了一种用代数群作用替代时间平均进行二阶统计估计的理论框架. 该框架将DFT, DCT和KLT统一为群匹配谱变换的特例, 并展示了在单次观测下进行MUSIC DOA估计等应用.

Delayed Homomorphic Reinforcement Learning for Environments with Delayed Feedback

Jongsoo Lee, Jangwon Kim, Soohee Han

cs.LG cs.AI

本文针对具有延迟反馈的强化学习环境, 提出了一种基于MDP同态的延迟同态强化学习框架. 该框架通过压缩信念等价的状态来避免状态空间爆炸, 并在抽象MDP上进行高效策略学习. 实验表明, 该方法在MuJoCo连续控制任务上优于现有的基于状态增广的基线方法.

Automated Attention Pattern Discovery at Scale in Large Language Models

Jonathan Katzy et al.

cs.LG cs.AI

本文提出了一种利用代码的结构化特性，在大规模语言模型中挖掘重复注意力模式的方法。通过引入基于vision transformer的AP-MAE模型，该工作展示了注意力模式可作为可扩展的解释性信号，并能够进行模型分析和干预。

CountsDiff: A Diffusion Model on the Natural Numbers for Generation and Imputation of Count-Based Data

Renzo G. Soatto et al.

cs.LG cs.AI

本文提出了CountsDiff, 一个用于自然数上分布的扩散模型框架, 旨在生成和插补计数数据. 该方法在图像和单细胞RNA-seq数据上进行了验证, 取得了与先进方法相当或更好的性能.

Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus

Dipkumar Patel

cs.LG cs.AI cs.MA

本文研究了多智能体LLM委员会中的表征坍缩现象, 并提出了一种无需训练的共识协议DALC. 通过测量智能体间推理的相似性, 作者发现存在显著的冗余, 并证明了嵌入模型的选择对坍缩程度和下游性能有重要影响.

k-Maximum Inner Product Attention for Graph Transformers and the Expressive Power of GraphGPS The Expressive Power of GraphGPS

Jonas De Schouwer, Haitz Sáez de Ocáriz Borde, Xiaowen Dong

cs.LG cs.AI

本文提出了一种名为k-MIP attention的新型注意力机制，用于提升图transformer在处理大规模图时的效率。该方法通过top-k选择实现稀疏注意力，在保持理论表达能力的同时，将内存复杂度降低至线性。实验表明，该方法能在单个GPU上处理超过50万个节点的图，并在多个基准测试中取得有竞争力的性能。

Collapse-Free Prototype Readout Layer for Transformer Encoders

Giansalvo Cirrincione, Rahul Ranjeev Kumar

cs.LG cs.NE

本文提出了一种基于原型的Transformer编码器读出层DDCL-Attention, 用于替代简单的池化方法. 该方法通过软概率匹配将token分配给一组全局原型向量, 以线性复杂度生成紧凑的token摘要, 并展示了在轨道碎片分类等非标准任务上的应用潜力.

Understanding When Poisson Log-Normal Models Outperform Penalized Poisson Regression for Microbiome Count Data

Daniel Agyapong et al.

cs.LG

本文通过留出评估框架比较了Poisson log-normal (PLN)模型与惩罚Poisson回归在微生物组计数数据上的表现。研究发现，PLN在大多数计数预测任务中表现更优，其优势与样本-分类单元比率等因素相关。

A Bayesian Information-Theoretic Approach to Data Attribution

Dharmesh Tailor, Nicolò Felicioni, Kamil Ciosek

cs.LG stat.ML

本文提出了一种基于 Bayesian information-theoretic 框架的 Training Data Attribution (TDA) 方法, 通过评估训练数据子集移除后模型预测熵的增加来量化其影响力. 该方法使用 Gaussian Process 近似来扩展到现代神经网络, 并在多个任务上展示了竞争力.

Where to Steer: Input-Dependent Layer Selection for Steering Improves LLM Alignment

Soham Gadgil, Chris Lin, Su-In Lee

cs.LG

本文提出了一种根据输入动态选择干预层的框架W2S, 用于改进基于steering vectors的LLM对齐方法. 实验表明, 这种输入自适应的层选择策略在多种任务和模型上均优于固定层干预的基线方法.

SODA: Semi On-Policy Black-Box Distillation for Large Language Models

Xiwen Chen et al.

cs.LG cs.CL

本文提出了一种用于大语言模型黑箱知识蒸馏的半在线方法SODA, 该方法通过利用教师模型的最优响应与学生模型的静态次优输出构建对比信号, 实现了高效的分布对齐. 该方法在多个基准测试中取得了有竞争力的性能, 同时显著提升了训练速度和稳定性.

Spatiotemporal Interpolation of GEDI Biomass with Calibrated Uncertainty

Robin Young, Srinivasan Keshav

cs.LG cs.CE

本文提出了一种基于Attentive Neural Process (ANP)的时空插值方法，用于填补GEDI LIDAR生物量数据在时空上的观测空白。该方法利用地理空间基础模型嵌入，能够为森林碳核算提供经过校准的不确定性估计。

Regime-Calibrated Demand Priors for Ride-Hailing Fleet Dispatch and Repositioning

Indar Kumar, Akanksha Tiwari

cs.LG cs.AI eess.SY

本文提出了一种用于网约车调度与车辆重定位的机制校准需求先验方法. 该方法通过将历史行程数据分割为不同的需求机制, 并使用一个结合了多种距离度量的相似性集成来匹配当前运营时段与最相似的历史时段, 从而校准需求先验. 基于此先验, 作者设计了一个基于线性规划的重定位策略和基于匈牙利算法的批量调度方法. 实验表明, 该方法能显著降低乘客的平均等待时间.

Provable Multi-Task Reinforcement Learning: A Representation Learning Framework with Low Rank Rewards

Yaoze Guo, Shana Moothedath

cs.LG

本文研究了多任务强化学习中的表示学习问题, 提出了一种基于低秩奖励矩阵估计的框架. 该方法在更一般的特征分布假设下, 通过先学习数据收集策略来估计奖励, 并证明了表示误差与样本复杂度之间的关系.

Improving Model Performance by Adapting the KGE Metric to Account for System Non-Stationarity

M Jawad et al.

cs.LG physics.ao-ph

本文提出了一种名为JKGE_ss的新评估指标，用于改进地球科学模型的性能。该指标通过考虑数据生成过程的动态非平稳性，旨在更准确地捕捉系统存储的时间变化。

Align Your Structures: Generating Trajectories with Structure Pretraining for Molecular Dynamics

Aniketh Iyengar et al.

cs.LG q-bio.QM

本文提出了一种利用结构预训练生成分子动力学轨迹的新框架. 该方法通过扩散模型生成结构, 再通过插值器模块确保时间一致性, 从而缓解了轨迹数据稀缺的问题.

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Hui Sun et al.

cs.LG

本文提出了一种名为ACES的新方法, 用于在代码生成任务中评估和加权LLM生成的测试用例. 该方法通过leave-one-out AUC一致性来量化测试用例区分正确与错误代码的能力, 从而避免了直接判断测试正确性的循环依赖问题.

Supervised Dimensionality Reduction Revisited: Why LDA on Frozen CNN Features Deserves a Second Look

Indar Kumar et al.

cs.LG cs.AI cs.CV

本文提出了一种用于网约车调度的"regime-calibrated"方法。该方法通过将历史行程数据划分为不同的需求模式(regime)，并使用一个包含六个指标的相似性集成来匹配当前运营时段与最相似的历史时段，从而生成校准后的需求先验。这个先验被用来驱动基于线性规划的车队重定位策略和基于匈牙利算法的批量派单。

Diagonal-Tiled Mixed-Precision Attention for Efficient Low-Bit MXFP Inference

Yifu Ding, Xinhao Zhang, Jinyang Guo

cs.LG cs.AI

本文提出了一种名为Diagonal-Tiled Mixed-Precision Attention (DMA)的低比特混合精度注意力内核，用于在下一代GPU架构上加速Transformer大语言模型的推理。该方法利用MXFP数据格式和Triton实现内核融合，在保持模型性能的同时显著提升了推理速度。

BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design

Yifu Ding et al.

cs.LG cs.CL

本文提出了一种算法-硬件协同设计的二值化Transformer方法BWTA, 通过分析二值化中的零点失真问题, 设计了Binary Weights & Ternary Activations量化方案. 该方法结合了平滑多阶段量化训练策略和高效的CUDA推理内核, 在BERT和LLM上实现了接近全精度的性能与显著的推理加速.

Multirate Stein Variational Gradient Descent for Efficient Bayesian Sampling

Arash Sarshar

cs.LG stat.CO

本文提出了一种多速率版本的 Stein variational gradient descent (SVGD) 方法，用于更高效的贝叶斯采样。该方法通过为更新的吸引和排斥部分设置不同的步长，改善了在高维、各向异性或分层后验分布上的稳定性和效率。

Autoencoder-Based Parameter Estimation for Superposed Multi-Component Damped Sinusoidal Signals

Momoka Iida, Hayato Motohashi, Hirotaka Takahashi

cs.LG eess.SP stat.ML

本文提出了一种基于autoencoder的方法, 用于从含噪的叠加多分量阻尼正弦信号中估计各分量的频率, 相位, 衰减时间和振幅等参数. 该方法在训练数据分布信息不足时仍能保持较好的鲁棒性, 展示了其在分析短时, 含噪信号方面的潜力.

Can LLMs Learn to Reason Robustly under Noisy Supervision?

Shenzhi Yang et al.

cs.LG cs.AI

本文研究了在带噪声监督下训练大型语言模型进行推理的问题。作者分析了强化学习与可验证奖励框架中噪声标签的机制，区分了“非活跃”和“活跃”噪声标签的不同影响。基于观察到的“早期正确一致性”现象，他们提出了一种在线标签精炼方法，该方法在多个数学推理基准测试上提升了模型在噪声环境下的鲁棒性。

Geometric Limits of Knowledge Distillation: A Minimum-Width Theorem via Superposition Theory

Dawar Jyoti Deka, Nilesh Sarkar

cs.LG cs.AI

本文通过superposition theory分析了knowledge distillation的性能极限, 提出了一个基于网络宽度$d_S$和稀疏性$\alpha$的容量函数$g(\alpha)$, 并论证了学生网络的特征编码能力存在几何上限. 实验在合成模型和Pythia-410M上验证了该理论预测的损失下限及其与特征重要度分布的关系.

ArrowFlow: Hierarchical Machine Learning in the Space of Permutations

Ozgur Yilmaz

cs.LG

本文提出了一种完全在排列空间中运行的机器学习架构 ArrowFlow. 其核心计算单元是 ranking filters, 通过非梯度的置换矩阵累积规则进行更新, 构建了无需浮点参数的分层序数表示学习框架. 该架构与 Arrow 不可能定理相联系, 并将违反社会选择公理作为非线性等性质的归纳偏置, 在多个数据集上展现了竞争力, 证明了在截然不同的计算范式中实现分类的可能性.

Fine-grained Analysis of Stability and Generalization for Stochastic Bilevel Optimization

Xuelin Zhang et al.

cs.LG cs.AI

本文研究了随机双层优化(SBO)的泛化性能, 建立了平均参数稳定性与泛化误差之间的定量联系. 针对单时间尺度和双时间尺度SGD方法, 分别在非凸-非凸、凸-凸和强凸-强凸三种目标函数设置下, 推导了稳定性上界.

Spectral Path Regression: Directional Chebyshev Harmonics for Interpretable Tabular Learning

Milo Coombs

cs.LG

本文提出了一种名为Spectral Path Regression的新方法，用于可解释的表格学习。该方法使用方向性的Chebyshev谐波模式来构建多元表示，通过选择少量结构化频率向量来控制模型复杂度，并在标准回归基准上实现了与强非线性基线相当的准确性。

Restless Bandits with Individual Penalty Constraints: A New Near-Optimal Index Policy and How to Learn It

Nida Zamir, I-Hong Hou

cs.LG

本文针对具有个体惩罚约束的Restless Multi-Armed Bandit (RMAB)问题，提出了一种新的Penalty-Optimal Whittle (POW)索引策略。该策略在满足所有个体约束的同时被证明是渐近最优的，并且通过仿真验证了其接近最优的性能。

Physical Sensitivity Kernels Can Emerge in Data-Driven Forward Models: Evidence From Surface-Wave Dispersion

Ziye Yu, Yuqi Cai, Xin Liu

cs.LG physics.geo-ph

本文通过比较神经网络代理模型的自动微分梯度与理论灵敏度核, 发现在表面波频散问题中, 数据驱动的代理模型可以学习到与物理内核相似的深度依赖结构. 这表明神经网络可以捕捉有物理意义的微分信息, 但训练数据中的强结构先验也可能导致系统性的伪影.

The Geometric Alignment Tax: Tokenization vs. Continuous Geometry in Scientific Foundation Models

Prashant C. Raju

cs.LG cs.IT q-bio.QM stat.ML

本文探讨了科学基础模型中离散tokenization对连续几何结构保持性的负面影响, 提出了"几何对齐税"的概念. 通过理论分析和在合成系统与生物模型上的实验, 论文识别了模型在几何保真度上的几种失败模式.

Uncertainty-Aware Foundation Models for Clinical Data

Qian Zhou, Yuanyun Zhang, Shi Li

cs.LG

本文提出了一种用于临床数据的不确定性感知基础模型框架. 该模型将患者表示为潜在状态上的分布而非点嵌入, 通过集合值表示和跨视图一致性学习来捕获可推断的不变信息并显式编码认知不确定性. 该方法整合了多模态编码器和自监督目标, 在多项临床任务中提升了预测性能和对缺失数据的鲁棒性.

Stable and Privacy-Preserving Synthetic Educational Data with Empirical Marginals: A Copula-Based Approach

Gabriel Diaz Ramos et al.

cs.LG cs.CY

本文提出了一种基于Copula的非参数高斯Copula(NPGC)方法, 用于生成稳定且保护隐私的合成教育数据. 该方法通过经验统计锚定来保持观测到的边际分布, 并引入差分隐私, 在多个基准数据集上验证了其有效性和较低的计算成本.

Which Leakage Types Matter?

Simon Roth

cs.LG

本文通过大量实验评估了机器学习中四类数据泄漏(data leakage)的严重性. 研究发现, 常见的预处理泄漏(如归一化)影响微乎其微, 而模型选择过程中的泄漏(如窥探数据)是导致报告分数虚高的主要原因.

ClawArena: Benchmarking AI Agents in Evolving Information Environments

Haonian Ji et al.

cs.LG cs.AI cs.CL

本文提出了一个名为ClawArena的基准测试，用于评估AI智能体在不断变化的信息环境中的表现。该基准模拟了多源、动态且存在矛盾的真实场景，并设计了多种问题类型来测试智能体的推理与适应能力。

Towards Agentic Defect Reasoning: A Graph-Assisted Retrieval Framework for Laser Powder Bed Fusion

Muhammad Rizwan Awan et al.

cs.LG

本文提出了一种用于激光粉末床熔融缺陷推理的图辅助检索框架. 该框架将科学文献转化为结构化表示, 并构建证据链接的知识图谱来编码参数、机理与缺陷之间的关系. 它集成了语义和图检索, 并通过一个轻量级的基于agent的推理层来构建可解释的缺陷路径, 实现了从工艺参数到缺陷的透明推理链.

Learning from Imperfect Demonstrations via Temporal Behavior Tree-Guided Trajectory Repair

Aniruddh G. Puranic et al.

cs.LG cs.AI cs.RO eess.SY

本文提出了一种利用Temporal Behavior Trees (TBT) 修复不完美演示轨迹的框架. 修复后的轨迹用于提取势函数以塑造强化学习的奖励信号, 并在离散和连续任务中验证了有效性.

Three Phases of Expert Routing: How Load Balance Evolves During Mixture-of-Experts Training

Charafeddine Mouzouni

cs.LG cs.AI cs.MA

本文通过将 Mixture-of-Experts (MoE) 的 token routing 建模为具有单一有效参数 $\gamma_{\text{eff}}$ 的 congestion game，分析了训练过程中负载平衡的演变。研究发现负载平衡呈现非单调的三阶段轨迹，并提供了有效的拥塞分解和多类型扩展来改进预测。

Subspace Control: Turning Constrained Model Steering into Controllable Spectral Optimization

Yancheng Huang et al.

cs.LG

本文提出了一种用于约束模型训练的subspace control框架SIFT. 它通过分析spectral cross-task interference并引入localization scheme, 在多个任务上实现了性能提升.

Good Rankings, Wrong Probabilities: A Calibration Audit of Multimodal Cancer Survival Models

Sajad Ghawami

cs.LG cs.AI q-bio.QM

本文对融合全切片组织病理图像与基因组数据的多模态癌症生存预测模型进行了校准度审计。研究发现, 尽管这些模型在区分性指标(如C-index)上表现良好, 但其输出的生存概率(无论是原生离散时间输出还是通过Breslow方法重建的生存曲线)普遍存在校准不良的问题。实验表明, 仅依赖区分性指标不足以评估临床可用的生存模型。

Peoples Water Data: Enabling Reliable Field Data Generation and Microbial Contamination Screening in Household Drinking Water

Suzan Kagan et al.

cs.LG physics.soc-ph

本文提出了一种基于机器学习的框架, 用于预测家庭饮用水中大肠杆菌的存在, 旨在为资源有限地区的微生物监测提供决策支持. 该研究还结合了现场实施框架以提高数据收集的可靠性.

Learning An Interpretable Risk Scoring System for Maximizing Decision Net Benefit

Wenhao Chi, Ş. İlker Birbil

cs.LG math.OC

本文提出了一种直接优化净效益的风险评分系统, 通过稀疏整数线性规划构建具有整数系数的可解释模型. 该方法在多个数据集上验证了其在保持良好区分度和校准性能的同时, 能有效实现高净效益.

Towards Unveiling Vulnerabilities of Large Reasoning Models in Machine Unlearning

Aobo Chen et al.

cs.LG cs.CR

本文针对大型推理模型(LRMs)的机器遗忘过程, 提出了一种新颖的攻击方法. 该方法旨在诱导模型产生看似合理但实则错误的推理轨迹, 并通过引入可微分的优化目标等策略来克服攻击中的技术挑战.

APPA: Adaptive Preference Pluralistic Alignment for Fair Federated RLHF of LLMs

Mahmoud Srewa, Tianyu Zhao, Salma Elmalaki

cs.LG cs.AI

本文提出了一个名为APPA的自适应偏好多元对齐框架, 用于联邦强化学习人类反馈(FedRLHF)中的公平奖励聚合. 该方法通过基于历史对齐奖励动态调整组级奖励权重, 旨在改善最差群体的对齐效果, 同时不损害整体对齐性能.

Entropy, Disagreement, and the Limits of Foundation Models in Genomics

Maxime Rochkoulets, Lovro Vrček, Mile Šikić

cs.LG cs.CL q-bio.GN

本文探讨了基因组学中基础模型表现受限的原因, 指出DNA序列的高熵特性导致模型预测分布趋于均匀, 模型间分歧增大, 且静态嵌入不稳定. 研究通过分析模型预测、嵌入和Fisher信息流, 表明仅从序列进行自监督训练可能不适用于基因组数据.

DAGAF: A directed acyclic generative adversarial framework for joint structure learning and tabular data synthesis

Hristo Petkov, Calum MacLellan, Feng Dong

cs.LG

本文提出了一个名为DAGAF的框架, 用于联合进行因果结构学习和表格数据合成. 该框架利用多种函数因果模型来学习DAG并模拟数据生成过程, 实验表明其在结构学习和数据生成方面优于现有方法.

Correcting Source Mismatch in Flow Matching with Radial-Angular Transport

Fouad Oubari, Mathilde Mougeot

cs.LG

本文提出了一种名为Radial-Angular Flow Matching (RAFM)的框架，用于解决Flow Matching中高斯源分布与重尾或各向异性数据之间的不匹配问题。该方法通过设计匹配数据径向分布的源分布，将传输问题简化为角向对齐，并在保持确定性训练流程的同时提升了性能。

Convolutional Neural Network and Adversarial Autoencoder in EEG images classification

Albert Nasybullin, Semen Kurkin

cs.LG

本文提出了一种结合计算机视觉与神经网络的方法, 用于对运动想象任务中的EEG信号进行分类. 该方法将原始EEG信号预处理并转换为2D拓扑图, 然后构建了监督和半监督神经网络模型进行分类.

How Long short-term memory artificial neural network, synthetic data, and fine-tuning improve the classification of raw EEG data

Albert Nasybullin, Vladimir Maksimenko, Semen Kurkin

cs.LG

本文提出了一种结合 synthetic data generation, LSTM 和 fine-tuning 的机器学习流程，用于对原始 EEG 数据进行分类。该方法在涉及内隐视觉刺激（如具有不同模糊度的 Necker cube）的实验中被应用，并提升了分类模型的质量。

Boosted Distributional Reinforcement Learning: Analysis and Healthcare Applications

Zequn Chen, Wesley J. Marrero

cs.LG cs.AI

本文提出了一种Boosted Distributional Reinforcement Learning (BDRL)算法，用于在高度不确定和异质性的环境中优化决策。该方法通过一个投影步骤来稳定学习，并在高血压管理的模拟应用中展示了其相对于基线方法的性能提升。

Generative models for decision-making under distributional shift

Xiuyuan Cheng, Yunqin Zhu, Yao Xie

cs.LG stat.ML

本文介绍了生成模型在分布偏移下决策问题中的应用, 重点讨论了基于流和分数的模型. 这些模型通过传输映射、速度场等工具来构建和转换与决策相关的分布, 用于场景生成、鲁棒决策和不确定性量化.

Deep Kuratowski Embedding Neural Networks for Wasserstein Metric Learning

Andrew Qing He

cs.LG

本文提出了两种基于Kuratowski嵌入定理的神经网络架构, 用于从数据中学习近似Wasserstein-2距离. 实验表明, 基于Neural ODE的模型ODE-KENN在MNIST数据集上取得了比基线更低的测试误差和更小的泛化差距.

Context is All You Need

Jean Erik Delanois et al.

cs.LG cs.AI

本文提出了一种名为CONTXT的轻量级上下文适应方法, 通过简单的加性和乘性特征变换来调制神经网络内部表征. 该方法旨在提升模型在域泛化(DG)和测试时适应(TTA)场景下的鲁棒性, 易于集成且开销小.

CPT: Controllable and Editable Design Variations with Language Models

Karthik Suresh et al.

cs.LG

本文提出了一种基于decoder-only language model的Creative Pre-trained Transformer (CPT)系统, 用于生成可编辑的设计变体. 该系统通过一种新的Creative Markup Language (CML)表示设计模板, 并在专业设计模板数据集上进行微调, 以预测视觉风格属性, 最终输出结构化的、可编辑的设计文档.

Finite-Time Analysis of Q-Value Iteration for General-Sum Stackelberg Games

Narim Jeong, Donghwan Lee

cs.LG eess.SY

本文从控制理论视角研究了双玩家一般和Markov博弈中Stackelberg Q值迭代的收敛性. 通过引入一个松弛策略条件并将学习动态建模为切换系统, 作者建立了Q函数的有限时间误差界并刻画了其收敛性质.

Relative Density Ratio Optimization for Stable and Statistically Consistent Model Alignment

Hiroshi Takahashi et al.

cs.LG cs.AI cs.CL stat.ML

本文提出了一种基于相对密度比优化的新方法, 用于稳定且统计一致的语言模型对齐. 该方法通过优化一个定义在偏好数据与混合数据分布之间的有界密度比, 避免了现有方法的不稳定性, 并在实验中验证了其有效性.

Is Prompt Selection Necessary for Task-Free Online Continual Learning?

Seoyoung Park, Haemin Lee, Hankook Lee

cs.LG cs.AI

本文提出了一种名为SinglePrompt的简单方法, 用于task-free online continual learning. 该方法不使用prompt selection, 而是通过注入单个prompt和优化classifier来提升性能, 在多个benchmark上取得了state-of-the-art的结果.

Estimating Central, Peripheral, and Temporal Visual Contributions to Human Decision Making in Atari Games

Henrik Krauss, Takehisa Yairi

cs.LG cs.CV

本文通过一个受控消融框架，利用带有眼动追踪的Atari游戏数据集，量化了外围视觉、注视点信息和历史状态信息对人类决策的贡献。研究发现，外围视觉信息对行为预测的贡献最大，而注视点信息的贡献相对较小。

TinyNina: A Resource-Efficient Edge-AI Framework for Sustainable Air Quality Monitoring via Intra-Image Satellite Super-Resolution

Prasanjit Dey et al.

cs.LG

本文提出了一种名为TinyNina的轻量级边缘AI框架，用于通过卫星图像超分辨率进行空气质量监测。该方法利用Sentinel-2卫星的多光谱数据作为内部训练标签，无需外部高分辨率数据集，并采用了注意力机制和深度可分离卷积来减少参数量。实验表明，该模型在计算效率和推理速度上相比大型模型有显著提升。

DP-OPD: Differentially Private On-Policy Distillation for Language Models

Fatemeh Khadem et al.

cs.LG cs.AI cs.CL

本文提出了一种名为DP-OPD的免合成框架，用于语言模型的差分隐私知识蒸馏。该方法仅在学生模型上应用DP-SGD，利用冻结的教师模型提供目标，简化了训练流程并改善了在严格隐私预算下的困惑度表现。

MAVEN: A Mesh-Aware Volumetric Encoding Network for Simulating 3D Flexible Deformation

Zhe Feng et al.

cs.LG cs.AI

本文提出了一种用于模拟3D柔性变形的网格感知体素编码网络MAVEN。该方法通过显式建模高维网格元素（如面和体）来改进物理模拟的准确性，实验表明其在多个任务上取得了先进性能。

Discrete Prototypical Memories for Federated Time Series Foundation Models

Liwei Deng et al.

cs.LG cs.AI

本文提出了一种基于离散原型记忆的联邦时间序列基础模型框架 FeDPM. 该框架通过学习和对齐跨领域的离散原型记忆, 解决了时间序列数据与 LLMs 语义空间不匹配以及联邦学习中连续隐空间建模异构数据的问题.

ECG Biometrics with ArcFace-Inception: External Validation on MIMIC and HEEDB

Arjuna Scagnetto

cs.LG cs.AI

本文评估了基于ArcFace-Inception的ECG生物识别系统在大规模外部数据集上的表现. 研究通过时间压力测试和尺度分析, 探讨了领域偏移和时间间隔对识别性能的影响.

Isokinetic Flow Matching for Pathwise Straightening of Generative Flows

Tauhid Khan

cs.LG

本文提出了一种名为 Isokinetic Flow Matching (Iso-FM) 的轻量级正则化方法，用于减少生成流模型中轨迹的曲率。该方法通过惩罚路径加速度来提升少步采样的效率，在图像生成任务上取得了显著的性能改进。

SLaB: Sparse-Lowrank-Binary Decomposition for Efficient Large Language Models

Ziwei Li, Yuang Ma, Yi Kang

cs.LG cs.AI

本文提出了一种名为SLaB的模型压缩框架，用于分解大型语言模型中的线性层权重。该方法无需重训练，并在高压缩率下取得了优于现有方法的性能。

One Model for All: Multi-Objective Controllable Language Models

Qiang He et al.

cs.LG cs.AI cs.CL

本文提出了一种名为 Multi-Objective Control (MOC) 的方法，用于训练单一的大型语言模型 (LLM) 以生成满足不同用户偏好权衡的个性化输出。该方法将多目标优化 (MOO) 原则引入基于人类反馈的强化学习 (RLHF) 框架中，使模型能够根据指定的偏好条件在帕累托前沿 (Pareto front) 的不同区域生成响应。实验表明，该方法在可控性、输出质量与多样性以及对未见偏好的泛化能力方面优于基线模型。

GAIN: Multiplicative Modulation for Domain Adaptation

Hengshuai Yao et al.

cs.LG cs.AI

本文提出了一种名为GAIN的领域适应方法, 通过可学习的对角矩阵$S$对预训练权重$W$进行乘法调制($W_{\text{new}} = S \cdot W$), 旨在缓解大型语言模型在适应新领域时的灾难性遗忘问题. 该方法主要应用于attention的输出投影层, 实验表明其在保持先前领域性能方面优于LoRA等方法.

Reproducibility study on how to find Spurious Correlations, Shortcut Learning, Clever Hans or Group-Distributional non-robustness and how to fix them

Ole Delzer, Sidney Bender

cs.LG cs.AI cs.CV

本文对多个旨在解决深度神经网络中虚假相关性问题的框架和方法进行了可重复性研究。研究在数据有限和子群不平衡等挑战性约束下，比较了基于可解释人工智能的校正方法与流行基线方法的效果。

Learning from Equivalence Queries, Revisited

Mark Braverman et al.

cs.LG cs.CC cs.IT

本文重新审视了Angluin提出的等价查询学习模型，针对传统模型中对抗性反例生成过于悲观的问题，引入了“对称”反例生成器这一更广泛的类别。在对称生成器的框架下，作者研究了完全信息和Bandit反馈两种设置，并给出了学习轮数的紧致界。

FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control

Donghu Kim et al.

cs.LG cs.RO

本文提出了一种名为FlashSAC的快速稳定off-policy强化学习算法，用于高维机器人控制。该算法通过减少梯度更新、使用更大模型和更高数据吞吐量来提升训练效率，并在多个模拟任务中表现出优于基线方法的性能。

Beyond Imbalance Ratio: Data Characteristics as Critical Moderators of Oversampling Method Selection

Yuwen Jiang, Songyun Ye

cs.LG

本文通过控制实验挑战了类别不平衡比例(IR)与过采样方法效果正相关的传统观点. 研究发现, 在控制数据特征(如类别可分性)后, IR与过采样收益呈弱负相关, 而类别可分性是更关键的影响因素. 作者提出了一个综合考虑IR、类别可分性和聚类结构的"Context Matters"框架, 为方法选择提供依据.

Dynamic Free-Rider Detection in Federated Learning via Simulated Attack Patterns

Motoki Nakamura

cs.LG cs.CR

本文提出了一种名为S2-WEF的新方法，用于检测联邦学习中的动态搭便车者。该方法通过模拟攻击模式并结合相似性与偏差度量的二维聚类，提高了对多种攻击策略的鲁棒性。

A Clinical Point Cloud Paradigm for In-Hospital Mortality Prediction from Multi-Level Incomplete Multimodal EHRs

Bohao Li et al.

cs.LG cs.AI

本文提出了一种名为HealthPoint(HP)的临床点云范式, 用于处理多层级不完整的多模态电子健康记录(EHRs). 该方法将异构临床事件表示为连续4D空间中的点, 并引入低秩关系注意力机制来建模点对之间的交互, 在风险预测任务上展现了良好的性能与鲁棒性.

From Curiosity to Caution: Mitigating Reward Hacking for Best-of-N with Pessimism

Zhuohao Yu, Zhiwei Steven Wu, Adam Block

cs.LG

本文提出了一种名为"caution"的方法来缓解BoN采样中的reward hacking问题. 该方法借鉴了RL中的pessimism原则, 通过惩罚reward model对非典型响应的预测误差来降低其奖励估计, 从而避免选择过度优化reward model缺陷的响应.

Grokking as Dimensional Phase Transition in Neural Networks

Ping Wang

cs.LG cond-mat.dis-nn cs.AI nlin.AO

本文通过分析梯度雪崩动力学，提出神经网络的grokking现象是一种维度相变。研究发现，有效维度$D$在泛化开始时从亚扩散态跨越到超扩散态，并表现出自组织临界性。

Anticipatory Reinforcement Learning: From Generative Path-Laws to Distributional Value Functions

Daniel Bloch

cs.LG q-fin.MF q-fin.PR q-fin.ST

本文提出了一种名为Anticipatory Reinforcement Learning (ARL)的新框架，用于处理非马尔可夫决策过程。该方法通过将状态空间提升到signature-augmented流形中，并利用自洽场方法，实现了在单条观测轨迹下对预期回报的确定性评估。

Batch Loss Score for Dynamic Data Pruning

Qing Zhou et al.

cs.LG cs.CV

本文提出了一种名为Batch Loss Score (BLS)的动态数据剪枝方法。该方法通过使用批量损失的指数移动平均来高效地为单个样本分配重要性分数，避免了直接计算逐样本损失的复杂性。实验表明，BLS能有效提升现有剪枝方法在多种数据集和任务上的性能。

Explainable Machine Learning for Sepsis Outcome Prediction Using a Novel Romanian Electronic Health Record Dataset

Andrei-Alexandru Bunea et al.

cs.LG cs.CV

本文利用一个来自罗马尼亚的新型电子健康记录数据集, 开发并分析了用于脓毒症结果预测的可解释机器学习模型. 研究评估了多种模型在三个分类任务上的性能, 并通过SHAP分析识别了关键的临床预测因子.

MUXQ: Mixed-to-Uniform Precision MatriX Quantization via Low-Rank Outlier Decomposition

Seoungsub Lee, In Seo Kim, Seon Wook Kim

cs.LG cs.AI

本文提出了一种名为MUXQ的量化方法, 通过检测并分解activation中的outlier channels来改善大语言模型在低精度整数(INT)量化时的精度损失. 该方法在GPT-2系列模型上验证了其有效性, 能在INT8精度下保持接近FP16的准确率, 为边缘设备上的高效推理提供了一个可行的方案.

The Infinite-Dimensional Nature of Spectroscopy and Why Models Succeed, Fail, and Mislead

Umberto Michelucci, Francesca Venturini

cs.LG cond-mat.mtrl-sci cs.AI stat.ML

本文从光谱数据的高维本质出发, 解释了机器学习模型在光谱分类任务中取得高准确率的原因. 作者通过理论分析和实验表明, 即使缺乏化学意义的特征, 高维空间中的微小分布差异也可能导致模型产生误导性的成功.

Sampling Parallelism for Fast and Efficient Bayesian Learning

Asena Karolin Özdemir et al.

cs.LG cs.AI cs.DC

本文提出了一种称为"采样并行性(sampling parallelism)"的并行化策略, 旨在解决基于采样的贝叶斯学习方法(如贝叶斯神经网络)计算成本高昂的问题. 该方法通过将样本评估分布到多个GPU上, 减少了内存压力和训练时间, 并且可以与数据并行等现有策略互补结合.

Darkness Visible: Reading the Exception Handler of a Language Model

Peter Balogh

cs.LG cs.CL

本文通过分析GPT-2 Small模型最后一层MLP的神经元活动，揭示了其内部存在一个清晰的三层异常处理程序结构。研究发现，知识存储与路由功能在神经元层面是分离的，并且该结构仅在最终层形成。

Cog-DRIFT: Exploration on Adaptively Reformulated Instances Enables Learning from Hard Reasoning Problems

Justin Chih-Yao Chen et al.

cs.LG cs.AI cs.CL

本文提出了一种通过任务重构来帮助大型语言模型从困难推理问题中学习的框架。该方法将开放式问题转化为多项选择等更简单的变体，以提供更密集的学习信号，并利用自适应课程进行训练。实验表明，该方法能有效提升模型在原本难以解决的问题上的性能。

Forgetting to Witness: Efficient Federated Unlearning and Its Visible Evaluation

Houzhe Wang, Xiaojie Zhu, Chi Chen

cs.LG cs.CR

本文提出了一种高效的联邦遗忘方法及其可视化评估框架. 该方法利用知识蒸馏等技术, 无需存储历史数据即可实现遗忘, 并设计了名为Skyeye的框架来可视化模型的遗忘能力.

Selecting Decision-Relevant Concepts in Reinforcement Learning

Naveen Raman, Stephanie Milani, Fei Fang

cs.LG cs.AI

本文提出了一种在强化学习中自动选择决策相关概念的方法, 旨在解决手动选择可解释概念的低效和可扩展性问题. 该方法将概念选择问题形式化为状态抽象问题, 并提供了性能保证.

The Role of Generator Access in Autoregressive Post-Training

Amit Kiran Rege

cs.LG

本文研究了在自回归模型后训练中，生成器访问模式对学习过程的影响。文章比较了仅能从初始状态开始生成与能够从历史前缀继续生成两种模式，并分析了不同观测信息（如对数概率、top-$k$报告）的有效性。

FairLogue: A Toolkit for Intersectional Fairness Analysis in Clinical Machine Learning Models

Nick Souligne, Vignesh Subbian

cs.LG q-bio.QM

本文介绍了一个名为FairLogue的工具包, 用于在临床机器学习模型中进行交叉公平性分析. 该工具包整合了观测性和反事实框架, 并通过在青光眼手术预测任务上的应用展示了其识别交叉群体偏差的能力.

Noise Immunity in In-Context Tabular Learning: An Empirical Robustness Analysis of TabPFN's Attention Mechanisms

James Hu, Mahdi Ghelichi

cs.LG cs.AI stat.ML

本文通过一系列受控合成扰动实验, 实证分析了 TabPFN 这一 tabular foundation model 在数据质量不佳(如无关特征、相关特征组、标签噪声)情况下的鲁棒性. 研究发现, TabPFN 在预测性能、attention 集中度以及基于 attention 的特征排序等方面均表现出显著的稳健性.

Optimizing LLM Prompt Engineering with DSPy Based Declarative Learning

Shiek Ruksana, Sailesh Kiran Kurra, Thipparthi Sanjay Baradwaj

cs.LG

本文介绍了一种基于DSPy声明式学习框架的LLM提示优化方法。该方法通过自动化、模块化的方式构建可学习的提示，旨在提升输出可靠性并减少幻觉。

Data Attribution in Adaptive Learning

Amit Kiran Rege

cs.LG

本文研究了自适应学习中的数据归因问题, 提出了一种基于条件干预目标的有限时域归因形式化方法. 作者证明了在一般情况下无法通过重放侧信息恢复该目标, 并识别了一个可从日志数据中识别该目标的结构类别.

Are Latent Reasoning Models Easily Interpretable?

Connor Dilgren, Sarah Wiegreffe

cs.LG

本文研究了 latent reasoning models (LRMs) 的可解释性问题。通过分析两个先进的 LRM，发现其推理 token 常非必要，且当必要时，其潜在表示常可解码为预期的自然语言推理过程。

HI-MoE: Hierarchical Instance-Conditioned Mixture-of-Experts for Object Detection

Vadim Vashkelis, Natalia Trukhina

cs.LG

本文提出了一种用于目标检测的层级实例条件混合专家模型(HI-MoE). 该模型采用两阶段路由机制, 在保持计算稀疏性的同时更好地适应了检测任务以实例为中心的异构结构. 初步实验表明其在COCO数据集上优于基线模型, 尤其在小物体检测上提升明显.

Empowering Power Outage Prediction with Spatially Aware Hybrid Graph Neural Networks and Contrastive Learning

Xuyang Shen et al.

cs.LG

本文提出了一种结合空间感知混合图神经网络(SA-HGNN)与对比学习的方法，用于预测极端天气导致的电力中断。该方法通过编码静态与动态特征的空间关系，并利用对比学习处理数据不平衡问题，在多个地区的实证研究中取得了先进的预测性能。

Stratifying Reinforcement Learning with Signal Temporal Logic

Justin Curry, Alberto Speranzon

cs.LG cs.LO eess.SY math.AT

本文为Signal Temporal Logic (STL) 提出了一种基于分层理论(stratification theory)的语义解释, 将原子谓词视为对分层空间的成员测试. 该理论框架为分析深度强化学习(DRL)嵌入空间的结构提供了新视角, 并在Minigrid游戏环境中进行了初步的数值验证.

cs.AI

To Throw a Stone with Six Birds: On Agents and Agenthood ⭐ 精选

Ioannis Tsiokos

cs.AI

本文在 Six Birds Theory (SBT) 的框架下，为智能体 (agent) 提供了一个类型正确的形式化定义，将其视为一个具有明确接口和约束的、可维持的理论对象。作者通过四个可检验的组件——账本门控可行性、鲁棒生存核、可行赋能 (作为因果影响代理) 以及量化粗观测下对象性的幂等缺陷映射——在有限控制系统中操作化这一概念。在一个最小环形世界模型中的实验表明，该方法能够通过可控的消融实验，清晰地区分智能体属性 (agenthood) 与代理行为 (agency)，例如赋能仅在多步规划时出现，而学习重写操作符能单调提升赋能，从而提供了可追踪、可复现的检验标准。

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Mingkai Miao et al.

cs.AI

本文提出了IC3-Evolve, 一个利用LLM离线演化IC3算法启发式策略的自动化框架. 该框架通过严格的证明或反例验证来保证生成补丁的正确性, 最终得到一个不依赖运行时ML模型的高效独立验证器.

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

Isidora Hernández, Héctor Ferrada, Cristóbal A. Navarro

cs.AI math.OC

本文提出了一种基于 universe segmentability 的预处理策略, 用于分解 Minimum Set Cover Problem (MSCP) 实例. 该方法利用 disjoint-set union 识别独立子问题, 并采用 GRASP 元启发式分别求解, 从而提升了大规模可分解实例的求解效率与质量.

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Han Jiang et al.

cs.AI cs.CY cs.DB

本文主张建立以项目级基准数据为核心的AI评估科学, 以解决当前评估范式中存在的系统性效度问题. 作者通过分析现有评估的缺陷, 并借鉴心理测量学等领域的范式, 论证了项目级数据对于进行细粒度诊断和原则性验证的必要性, 并介绍了支持这一目标的开放数据平台 OpenEval.

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Yong Xie, Kexin He, Andres Castellanos-Gomez

cs.AI cond-mat.mtrl-sci cs.HC

本文探讨了使用大型语言模型(LLM)和基于LLM的AI智能体(agent)来控制复杂实验室仪器的潜力. 通过一个单像素相机/扫描光电流显微镜的案例, 展示了如何利用ChatGPT降低实验定制化的技术门槛, 并进一步将其扩展为能够自主操作仪器并迭代优化控制策略的自主AI智能体(agent).

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Nicholas Skytland et al.

cs.AI

本文提出了一个基于基督教人类繁荣观的AI评估框架FAI-C-ST, 用于衡量前沿大语言模型在道德和精神层面的形成性影响. 研究发现, 当前AI系统并非世界观中立, 其默认的"程序性世俗主义"导致在繁荣度各维度上出现系统性表现下降.

VERT: Reliable LLM Judges for Radiology Report Evaluation

Federica Bologna et al.

cs.AI cs.CL

本文提出了一种名为VERT的基于LLM的评估指标, 用于评估放射学报告. 通过在多模态和解剖学数据集上的实验, 该指标相比现有方法提升了与放射科医生评分的相关性, 并且轻量级微调能显著提升性能与效率.

Hume's Representational Conditions for Causal Judgment: What Bayesian Formalization Abstracted Away

Yiling Wu

cs.AI

本文分析了Hume因果判断理论中的三个表征条件, 并指出从Hume到Bayesian认识论的形式化进程中, 这些条件被抽象掉了. 作者以大型语言模型为例, 说明了现代系统如何进行统计更新而不满足这些条件.

TABQAWORLD: Optimizing Multimodal Reasoning for Multi-Turn Table Question Answering

Tung Sum Thomas Kwok et al.

cs.AI

本文提出了一个名为TABQAWORLD的训练无关框架，用于优化多轮表格问答中的多模态推理。该框架通过动态切换视觉与文本表示来提升表格状态读取的可靠性，并利用表格元数据来规划推理轨迹以降低延迟。实验表明，该方法在准确性和推理效率上均优于现有基线。

Contextual Control without Memory Growth in a Context-Switching Task

Song-Ju Kim

cs.AI

本文提出了一种基于干预的循环架构, 用于解决上下文相关的顺序决策问题. 该模型通过在共享的循环潜在状态上进行干预来实现上下文依赖, 避免了循环维度的增长.

Beyond Predefined Schemas: TRACE-KG for Context-Enriched Knowledge Graphs from Complex Documents

Mohammad Sadeq Abolhasani et al.

cs.AI cs.IR cs.LG

本文提出了TRACE-KG框架, 用于从复杂文档中构建上下文丰富的知识图谱. 该方法无需预定义本体, 能联合生成图谱和模式, 并通过结构化限定词捕获条件关系.

Resource-Conscious Modeling for Next- Day Discharge Prediction Using Clinical Notes

Ha Na Cho et al.

cs.AI

本文评估了多种基于临床文本的轻量级模型用于预测择期脊柱外科患者次日出院的可能性. 传统TF-IDF结合LGBM模型在性能与效率上取得了最佳平衡, 而基于Transformer的模型整体表现不佳.

BioAlchemy: Distilling Biological Literature into Reasoning-Ready Reinforcement Learning Training Data

Brian Hsu et al.

cs.AI

本文提出了一种从生物学研究文献中提取可验证问答对以构建训练数据集的流程, 并展示了该数据集可用于通过强化学习提升模型在生物学推理任务上的性能.

ActionNex: A Virtual Outage Manager for Cloud

Zhenfeng Lin et al.

cs.AI

本文介绍了ActionNex, 一个用于大规模云服务中断管理的智能代理系统. 它整合多模态操作信号, 利用分层记忆和推理代理来提供实时的最佳行动建议.

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Gregory M. Ruddell

cs.AI

本文提出了一个基于能量的治理框架, 将 transformer 的推理动态与神经计算的约束满足模型联系起来. 研究通过轨迹张力等指标, 在特定模型和任务下识别出一个 57-token 的预承诺窗口, 并建立了一个包含五种行为模式的推理分类法. 结果表明, 规则违反和幻觉是不同的故障模式, 需要不同的检测机制, 为评估自主 AI 系统的部署风险提供了可测量的框架.

Explainable Model Routing for Agentic Workflows

Mika Okamoto, Ansel Kaplan Erol, Mark Riedl

cs.AI cs.HC

本文提出了一个名为Topaz的可解释路由框架, 用于现代智能体工作流. 该框架通过基于技能的模型画像, 可追踪的路由算法和面向开发者的解释, 使模型选择决策变得可审计和可理解.

Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach

Takayuki Semitsu, Naoto Kiribuchi, Kengo Zenitani

cs.AI

本文提出了一种基于共享活动分类法的自动化框架, 用于比较AI安全政策文档. 该系统利用大型语言模型(LLM)提取和映射文档中的相关活动, 生成摘要、比较和相似度评分. 实验评估了不同LLM的稳定性和有效性, 发现模型选择对结果有显著影响, 且模型评分与专家判断存在差异.

Towards the AI Historian: Agentic Information Extraction from Primary Sources

Lorenz Hufe et al.

cs.AI cs.CL cs.DL

本文介绍了一个名为Chronos的AI历史学家系统的首个模块, 该模块旨在通过自然语言交互帮助历史学家将原始文献的图像扫描件转换为数据. 它允许研究者根据异质化的文献集定制工作流程, 评估AI模型在特定任务上的表现, 并通过与智能体交互迭代优化流程.

When Do Hallucinations Arise? A Graph Perspective on the Evolution of Path Reuse and Path Compression

Xinnan Dai et al.

cs.AI

本文从图搜索的视角建模了LLM中的推理幻觉问题. 作者将next-token预测视为在底层知识图上的搜索过程, 并提出了Path Reuse和Path Compression两种机制来解释幻觉的产生.

When Adaptive Rewards Hurt: Causal Probing and the Switching-Stability Dilemma in LLM-Guided LEO Satellite Scheduling

Yuanhang Li

cs.AI

本文研究了在低轨卫星调度中使用自适应奖励设计对深度强化学习性能的影响. 实验发现, 动态调整奖励权重反而会因破坏价值函数收敛所需的准静态信号而损害性能. 作者提出了一种因果探测方法来分析不同奖励项的影响, 并比较了多种奖励权重生成方法, 包括基于LLM的方法.

Personality Requires Struggle: Three Regimes of the Baldwin Effect in Neuroevolved Chess Agents

Diego Armando Resendez Prado

cs.AI cs.NE

本文研究了在神经演化国际象棋智能体中, Baldwin effect 如何通过 lifetime learning 影响行为多样性的演化. 实验发现, 具有 Hebbian plasticity 的智能体在演化过程中, 其行为方差会经历一个从压缩到扩张的交叉转变, 并识别出三种不同的演化机制.

Selective Forgetting for Large Reasoning Models

Tuan Le, Wei Qian, Mengdi Huai

cs.AI

本文针对Large Reasoning Models (LRMs)在推理过程中可能泄露敏感信息的问题，提出了一种选择性遗忘框架。该方法通过分析推理链，识别并替换敏感部分，旨在移除特定知识的同时保持模型的通用推理能力。

Rashomon Memory: Towards Argumentation-Driven Retrieval for Multi-Perspective Agent Memory

Albert Sadowski, Jarosław A. Chudziak

cs.AI

本文提出了一种名为Rashomon Memory的新型智能体记忆架构，用于处理多目标下的冲突经验编码。该架构允许并行的目标驱动智能体根据各自优先级编码经验，并在查询时通过论证进行协商，最终利用Dung的argumentation semantics确定检索结果。

Entropy and Attention Dynamics in Small Language Models: A Trace-Level Structural Analysis on the TruthfulQA Benchmark

Adeyemi Adeseye et al.

cs.AI

本文对小型语言模型在TruthfulQA基准测试中的内部动态进行了追踪分析, 重点研究了输出熵和注意力熵的演化模式. 研究根据熵的动态将模型分为确定性, 探索性和平衡性三类, 并揭示了其与注意力分散及隐藏状态移动模式的关联.

A Multimodal Foundation Model of Spatial Transcriptomics and Histology for Biological Discovery and Clinical Prediction

Jinxi Xiang et al.

cs.AI q-bio.QM

本文提出了一个名为STORM的多模态基础模型, 用于整合空间转录组学数据和H&E组织学图像. 该模型在跨器官的大规模数据集上训练, 旨在从组织图像中预测基因表达并改善空间域识别, 在多个临床预测任务上展示了优于现有方法的性能.

Single-agent vs. Multi-agents for Automated Video Analysis of On-Screen Collaborative Learning Behaviors

Likai Peng, Shihui Feng

cs.AI

本文比较了单智能体与多智能体 Vision Language Models (VLMs) 在协作学习场景下自动分析屏幕录制视频的性能。研究提出了两种多智能体框架，实验表明它们在场景和行为检测任务上优于单智能体模型。

Beyond Retrieval: Modeling Confidence Decay and Deterministic Agentic Platforms in Generative Engine Optimization

XinYu Zhao et al.

cs.AI

本文提出了一种新的Generative Engine Optimization(GEO)范式, 以解决当前基于Retrieval-Augmented Generation(RAG)方法存在的概率性幻觉和"零点击"问题. 通过引入Deterministic Agent Handoff(DAH)协议和Agentic Trust Brokerage(ATB)生态系统, 将LLMs的角色限定为意图路由器, 并在工业产品中验证了其降低任务幻觉率的有效性.

TableVision: A Large-Scale Benchmark for Spatially Grounded Reasoning over Complex Hierarchical Tables

Xiaoyu Chen et al.

cs.AI

本文提出了一个用于评估多模态大语言模型在复杂分层表格上进行空间推理的大规模基准数据集 TableVision. 该数据集通过渲染管道提供精确的空间标注, 旨在缓解模型在处理高密度视觉信息时出现的"感知过载"瓶颈.

PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training

Erhan Zhang et al.

cs.AI

本文提出了一种名为PRAISE的框架，用于提升agentic search训练中的数据效率和信用分配。该方法通过重用搜索轨迹的前缀来构造额外的训练数据并推导中间奖励，实验表明其在多跳问答任务上能持续提升性能。

Structured Multi-Criteria Evaluation of Large Language Models with Fuzzy Analytic Hierarchy Process and DualJudge

Yulong He et al.

cs.AI

本文提出了一种结合Fuzzy Analytic Hierarchy Process (FAHP)和DualJudge框架的结构化方法，用于评估大型语言模型(LLMs)。该方法通过分解评估标准并融入不确定性建模，旨在提高评估的可靠性和一致性。实验表明，该方法在多个数据集上优于传统的直接评分方式。

RL-Driven Sustainable Land-Use Allocation for the Lake Malawi Basin

Ying Yao

cs.AI cs.LG

本文提出了一个基于深度强化学习(RL)的框架，用于优化马拉维湖流域的土地利用分配，以最大化生态系统服务价值(ESV)。该框架利用Proximal Policy Optimization (PPO) agent在模拟环境中进行决策，并结合了空间连贯性目标来引导形成更合理的土地利用模式。

Decomposing Communication Gain and Delay Cost Under Cross-Timestep Delays in Cooperative Multi-Agent Reinforcement Learning

Zihong Gao et al.

cs.AI cs.MA

本文研究了合作多智能体强化学习中跨时间步延迟对通信的影响, 提出了一个延迟通信部分可观测马尔可夫博弈(DeComm-POMG)模型. 作者将消息的效用分解为通信增益与延迟成本, 并基于此设计了一个能选择性请求消息并融合延迟信息的actor-critic框架.

Affording Process Auditability with QualAnalyzer: An Atomistic LLM Analysis Tool for Qualitative Research

Max Hao Lu et al.

cs.AI cs.CL

本文介绍了一个名为QualAnalyzer的开源工具, 它通过独立处理每个数据单元并保留完整的prompt和输出记录, 旨在提升基于LLM的定性研究分析过程的可审计性. 作者通过案例研究展示了该工具在使分析结论的产生过程更加透明和可追溯方面的作用.

PolySwarm: A Multi-Agent Large Language Model Framework for Prediction Market Trading and Latency Arbitrage

Rajat M. Barot, Arjun S. Borkhatariya

cs.AI cs.CL cs.MA q-fin.TR

本文提出了一个名为PolySwarm的多智能体大语言模型框架，用于在去中心化预测市场进行实时交易和延迟套利。该框架通过集成多个LLM智能体的预测并应用风险控制策略来执行交易。

FeynmanBench: Benchmarking Multimodal LLMs on Diagrammatic Physics Reasoning

Zeyu Wang et al.

cs.AI

本文提出了一个名为FeynmanBench的基准测试，用于评估多模态大语言模型在Feynman diagram（费曼图）任务上的多步推理能力。该基准包含标准模型相互作用的多样化任务，实验揭示了现有模型在满足物理约束方面的系统性缺陷。

LLM-Agent-based Social Simulation for Attitude Diffusion

Deepak John Reji

cs.AI stat.CO

本文提出了一个结合LLM与基于智能体建模的开源框架, 用于模拟公众对移民等议题的态度扩散. 该框架整合了多维信念结构与实时新闻, 旨在作为研究态度动态与极化的社会科学工具.

CODE-GEN: A Human-in-the-Loop RAG-Based Agentic AI System for Multiple-Choice Question Generation

Xiaojing Duan, Frederick Nwanganga, Chaoli Wang

cs.AI cs.CY

本文介绍了一个名为CODE-GEN的人机协同、基于检索增强生成(RAG)的智能体AI系统，用于生成与课程目标对齐的编程选择题。系统通过生成器和验证器智能体协作，并在专家评估中表现出较高的可靠性，尤其在适合计算验证的维度上。

SKILLFOUNDRY: Building Self-Evolving Agent Skill Libraries from Heterogeneous Scientific Resources

Shuaike Shen et al.

cs.AI

本文提出了一个名为SkillFoundry的框架, 用于从异构的科学资源中自动构建和验证可执行的agent技能库. 该框架通过闭环验证过程迭代地扩展和优化技能库, 并在基准测试和特定领域任务上展示了性能提升.

Quantifying Trust: Financial Risk Management for Trustworthy AI Agents

Wenyue Hua et al.

cs.AI cs.CE

本文提出了一个基于风险管理的框架 Agentic Risk Standard (ARS), 用于管理 AI 智能体在开放环境中执行任务时的端到端风险. 该框架借鉴金融承保理念, 将风险评估, 承保和补偿整合到单一交易结构中, 旨在为用户提供可执行的产品级保障.

FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification

Hang Xu et al.

cs.AI cs.LG

本文提出了一个基于证据的论文评审系统FactReview, 该系统通过提取论文主张、定位相关文献以及执行代码验证来辅助评审。该系统能够生成带有证据标签的评审报告, 并以CompGCN为例展示了其验证主张有效性的能力。

Compliance-by-Construction Argument Graphs: Using Generative AI to Produce Evidence-Linked Formal Arguments for Certification-Grade Accountability

Mahyar T. Moghaddam

cs.AI

本文提出了一种将生成式人工智能与结构化形式论证相结合的合规性架构, 旨在为高风险决策系统提供可验证的论证支持. 该架构通过检索增强生成、验证内核和来源追溯等组件, 试图在利用AI加速论证构建的同时, 确保其主张的可追溯性和可审计性.

InsTraj: Instructing Diffusion Models with Travel Intentions to Generate Real-world Trajectories

Yuanshao Zhu et al.

cs.AI

本文提出了一种名为InsTraj的框架，它利用大型语言模型解析自然语言描述的出行意图，并指导扩散模型生成高保真度的GPS轨迹。该方法旨在解决现有方法在理解复杂语义意图和平衡约束与多样性方面的不足，实验表明其在真实性和语义忠实度上优于现有技术。

Profile-Then-Reason: Bounded Semantic Complexity for Tool-Augmented Language Agents

Paulo Akira F. Enabe

cs.AI

本文提出了一个名为Profile-Then-Reason (PTR)的有界执行框架, 用于增强使用外部工具的language agent. 该方法首先合成一个显式的工作流, 然后执行和验证, 从而将language model的调用次数限制在2到3次, 在多个基准测试中优于ReAct基线.

Solar-VLM: Multimodal Vision-Language Models for Augmented Solar Power Forecasting

Hang Fan et al.

cs.AI

本文提出了一个名为 Solar-VLM 的多模态视觉语言模型框架，用于增强光伏发电预测。该框架融合了时间序列观测、卫星图像和文本天气信息，并通过图注意力网络和跨站点注意力模块来捕捉空间依赖性。

Readable Minds: Emergent Theory-of-Mind-Like Behavior in LLM Poker Agents

Hsieh-Ting Lin, Tsung-Yu Hou

cs.AI

本文研究了LLM智能体在动态交互中能否发展出类似心理理论(Theory of Mind, ToM)的能力。通过让智能体玩德州扑克，研究发现，具备持久记忆的智能体能够逐步建立复杂的对手模型并展现出战略欺骗行为，而记忆是此类行为涌现的必要且充分条件。

A Model of Understanding in Deep Learning Systems

David Peter Wallis Freeborn

cs.AI

本文提出了一个适用于机器学习系统的系统性理解模型. 该模型认为, 当智能体包含一个能追踪真实规律、通过稳定的桥接原则与目标系统耦合并能支持可靠预测的充分内部模型时, 它就理解了目标系统的某个属性. 作者认为当前的深度学习系统通常能够并确实实现了这种理解, 但通常达不到科学理解的理想标准.

CoALFake: Collaborative Active Learning with Human-LLM Co-Annotation for Cross-Domain Fake News Detection

Esma Aïmeur, Gilles Brassard, Dorsaf Sallami

cs.AI

本文提出了一种用于跨领域假新闻检测的新方法 CoALFake, 该方法结合了人类-大语言模型协同标注和领域感知的主动学习. 实验表明该方法在多个数据集上优于现有基线, 是一种高成本效益的解决方案.

Comparative reversal learning reveals rigid adaptation in LLMs under non-stationary uncertainty

Haomiaomiao Wang, Tomás E Ward, Lili Zhang

cs.AI

本文通过一个两选项概率反转学习任务, 将LLMs作为序列决策策略进行评估. 研究发现LLMs在非平稳不确定性下表现出适应僵化, 其赢留输转行为不对称, 且整体高回报可能与僵化适应共存. 分层强化学习拟合揭示了僵化可能源于多种可分离的机制.

Schema-Aware Planning and Hybrid Knowledge Toolset for Reliable Knowledge Graph Triple Verification

Xinyan Ma et al.

cs.AI

本文提出了一种名为SHARP的免训练自主智能体, 用于知识图谱三元组验证. 该方法通过结合模式感知的战略规划和混合知识工具集, 动态整合内部图结构与外部文本证据进行交叉验证, 在基准数据集上取得了优于现有方法的性能.

Don't Blink: Evidence Collapse during Multimodal Reasoning

Suresh Raghu, Satwik Pandey

cs.AI

本文研究了多模态推理模型在推理过程中视觉证据关注度下降的现象, 即"证据坍缩". 通过实验发现, 仅依赖文本不确定性信号进行监测存在局限, 并提出了结合视觉特征的针对性监测方法.

TimeSeek: Temporal Reliability of Agentic Forecasters

Hamza Mostafa, Om Shastri, Dennis Lee

cs.AI

本文提出了一个名为 TimeSeek 的基准，用于评估基于 LLM 的智能体预测者在预测市场生命周期中可靠性的动态变化。研究发现，模型的预测能力在市场的早期和高不确定性阶段更具竞争力，而在临近结果揭晓或市场共识强烈时表现下降。

Pedagogical Safety in Educational Reinforcement Learning: Formalizing and Detecting Reward Hacking in AI Tutoring Systems

Oluseyi Olukola, Nick Rahimi

cs.AI cs.CY cs.LG

本文针对教育强化学习中的教学安全问题, 提出了一个包含结构、进度、行为和一致性四个层面的教学安全模型, 并引入了奖励黑客严重性指数(RHSI)来量化代理奖励与真实学习目标之间的错配. 通过模拟实验, 研究发现仅靠奖励设计可能不足以确保教学一致性, 而结合先决条件强制和最低认知需求的约束架构能更有效地减少奖励黑客行为.

Combee: Scaling Prompt Learning for Self-Improving Language Model Agents

Hanchen Li et al.

cs.AI cs.CL cs.LG

本文提出了Combee框架, 用于在自改进的智能体系统中实现可扩展的并行提示学习. 它通过并行扫描和增强的混洗机制, 在多个基准测试上实现了显著的加速, 同时保持了准确性.

MC-CPO: Mastery-Conditioned Constrained Policy Optimization

Oluseyi Olukola, Nick Rahimi

cs.AI cs.CY cs.LG

本文提出了一种名为MC-CPO的算法，用于解决自适应教学系统中强化学习策略可能出现的奖励作弊问题。该方法将问题建模为一个受约束的马尔可夫决策过程，并通过结合结构化的动作屏蔽与约束策略优化来确保教学安全性。实验表明，该算法能有效满足约束条件并降低奖励作弊的严重程度。

Context Engineering: A Practitioner Methodology for Structured Human-AI Collaboration

Elias Calboreanu

cs.AI cs.HC

本文提出了一种名为Context Engineering的结构化方法, 用于在与AI工具交互时系统地组装和声明伴随prompt的完整信息负载. 该方法定义了一个包含五种角色的上下文包结构, 并应用了一个四阶段的流水线. 一项观察性研究显示, 使用结构化上下文组装与任务平均迭代次数的减少和首次通过接受率的提高相关.

Beyond Fluency: Toward Reliable Trajectories in Agentic IR

Anushree Sinha et al.

cs.AI cs.LG

本文讨论了信息检索(Information Retrieval)向自主智能体工作流的转变, 并指出了在多步推理-行动-观察循环中, 早期小错误会级联放大, 导致内部推理与外部工具执行之间的功能失调. 作者主张需要超越终端准确性, 关注轨迹完整性和因果归因, 并提出了在每个交互单元设置验证门以及在已校准的不确定性下进行系统弃权的建议.

InferenceEvolve: Towards Automated Causal Effect Estimators through Self-Evolving AI

Can Wang, Hongyu Zhao, Yiqun Chen

cs.AI cs.CE cs.MS stat.AP

本文提出了一个名为InferenceEvolve的进化框架，该框架利用大语言模型来自动发现和迭代优化因果效应估计方法。在多个基准测试中，该框架生成的估计器表现优于现有基线，并能在结果变量仅被部分观测的情况下保持竞争力。

Preservation Is Not Enough for Width Growth: Regime-Sensitive Selection of Dense LM Warm Starts

Eren Unlu

cs.AI

本文研究了在密集宽度扩展中如何选择最佳的预热起始点, 将问题视为对完整训练状态(包括权重、优化器状态等)的候选选择问题. 通过实验比较了多种预热起始策略在不同训练机制(确定性与随机性)和预算下的表现, 发现最佳选择取决于具体机制和预算, 零步保持并非通用标准.

PanLUNA: An Efficient and Robust Query-Unified Multimodal Model for Edge Biosignal Intelligence

Marija Zelic et al.

cs.AI

本文提出了一个名为PanLUNA的紧凑型多模态生理信号基础模型, 它通过一个共享编码器联合处理EEG, ECG和PPG信号. 该模型利用通道统一和传感器类型嵌入实现高效的早期跨模态融合, 并在保持小规模参数的同时, 在多个基准任务上取得了与更大模型相当或更优的性能, 同时展示了在超低功耗微控制器上的高效部署能力.

RESCORE: LLM-Driven Simulation Recovery in Control Systems Research Papers

Vineet Bhat et al.

cs.AI cs.SE

本文提出了一个名为RESCORE的LLM智能体框架, 用于从控制系统的研究论文中自动恢复可执行的数值仿真代码. 该方法通过迭代执行反馈和视觉对比来提高重建的保真度, 在基准测试中取得了显著优于单次生成的效果, 并估计能比人工复制快10倍.

Soft Tournament Equilibrium

Saad Alqithami

cs.AI cs.LG cs.MA

本文提出了一个名为Soft Tournament Equilibrium (STE)的可微分框架, 用于从成对比较数据中学习和计算集合值的锦标赛解. 该框架旨在为存在非传递性交互的智能体评估提供一个更稳健的理论基础, 将评估焦点从线性排名转向集合值的核心.

Thermodynamic-Inspired Explainable GeoAI: Uncovering Regime-Dependent Mechanisms in Heterogeneous Spatial Systems

Sooyoung Lim, Zhenlong Li, Zi-Kui Liu

cs.AI cs.LG

本文提出了一种受热力学启发的可解释地理人工智能框架, 将统计力学与图神经网络相结合. 该框架通过将空间异质性概念化为系统负担与容量之间的热力学竞争, 旨在揭示空间过程中的潜在机制, 并在多个模拟和真实数据集上展示了其识别状态依赖预测因子角色反转的能力.

Implementing surrogate goals for safer bargaining in LLM-based agents

Caspar Oesterheld et al.

cs.AI

本文在基于大语言模型的智能体中实现了"替代目标"策略, 旨在通过让智能体关注一个可牺牲的替代目标来转移威胁, 从而降低谈判失败的风险. 作者提出了四种结合提示、微调和架构设计的方法, 并通过实验评估了它们在模拟谈判场景中的表现.

Domain-Contextualized Inference: A Computable Graph Architecture for Explicit-Domain Reasoning

Chao Li, Yuru Wang, Chunyu Zhao

cs.AI

本文提出了一种名为"Domain-Contextualized Inference"的可计算图架构, 将领域(domain)作为显式的一类计算参数. 该架构支持多种计算基板(substrate), 并旨在提供透明的推理链.

RoboPhD: Evolving Diverse Complex Agents Under Tight Evaluation Budgets

Andrew Borthwick, Stephen Ash, Anthony Galczak

cs.AI

本文在固定评估预算下, 系统比较了三种优化范式 (Elo tournament selection, Pareto-based selection, greedy hill-climbing) 在多个基准测试上的性能. 其中提出的 RoboPhD 方法采用基于训练数据的 Elo 竞争来同时评估和驱动 agent 进化, 无需单独的验证集, 并在多数任务上取得了更好的结果.

REAM: Merging Improves Pruning of Experts in LLMs

Saurav Jha et al.

cs.AI cs.CL cs.LG cs.PF

本文提出了一种名为REAM的新方法, 用于压缩Mixture-of-Experts (MoE)大型语言模型. 该方法通过合并专家(experts)而非剪枝来减少模型参数, 并在多项选择题和生成任务上评估了其性能.

Decocted Experience Improves Test-Time Inference in LLM Agents

Maohao Shen et al.

cs.AI cs.LG

本文探讨了在LLM agents中通过改进输入上下文(context)而非更新模型参数来提升测试时推理性能的方法. 研究聚焦于如何从过往经验(experience)中提炼(decoct)并组织有效信息来构建引导推理的上下文.

Optimizing Service Operations via LLM-Powered Multi-Agent Simulation

Yanyuan Wang, Xiaowei Zhang

cs.AI cs.MA math.OC

本文提出了一个利用LLM驱动的多智能体模拟(LLM-MAS)框架来优化服务运营。该方法将设计选择嵌入提示词中，通过单次模拟运行同时构建梯度估计并更新参数，在可持续供应链等应用中表现优于基准方法。

Automatically Generating Hard Math Problems from Hypothesis-Driven Error Analysis

Jiayu Fu, Mourad Heddaya, Chenhao Tan

cs.AI

本文提出了一种基于假设驱动错误分析的数学基准自动生成方法, 用于识别LLMs在特定数学概念和技能上的弱点并生成针对性问题. 该方法具有高度适应性, 可扩展至数学以外的领域以探索LLMs的广泛能力.

Gradual Cognitive Externalization: A Framework for Understanding How Ambient Intelligence Externalizes Human Cognition

Zhimin Zhao

cs.AI cs.CY cs.ET cs.HC cs.LG

本文提出了一个名为"Gradual Cognitive Externalization (GCE)"的理论框架, 用于解释人类认知功能如何通过与环境智能(ambient intelligence)的协同适应, 而非意识上传(mind uploading), 迁移到数字载体中. 该框架基于行为流形(behavioral manifold)假说, 并提出了区分认知整合与工具使用的三个标准.

GUIDE: Interpretable GUI Agent Evaluation via Hierarchical Diagnosis

Yuwen Zhai et al.

cs.AI

本文提出了一个名为GUIDE的框架, 用于对GUI智能体进行可解释的评估. 该框架通过将长轨迹分解为语义连贯的子任务单元并进行分层诊断, 提高了评估的准确性和可解释性.

MolDA: Molecular Understanding and Generation via Large Language Diffusion Model

Seohyeon Shin et al.

cs.AI

本文提出了一种名为MolDA的新型多模态分子建模框架, 它用离散的Large Language Diffusion Model替代了传统的自回归主干. 该模型通过混合图编码器提取结构表示, 并利用掩码扩散过程进行双向迭代去噪, 旨在改善分子生成的有效性和全局一致性.

ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems

Zhuowen Yuan et al.

cs.AI

本文提出了一个针对LLM agent供应链注入攻击的检测框架ShieldNet. 该工作首先构建了一个包含多种攻击类型的大规模基准测试SC-Inject-Bench, 并基于此设计了一个通过监控网络交互来识别恶意行为的轻量级分类器. 实验表明, 该方法在检测性能和运行时开销上均优于现有方案.

PSY-STEP: Structuring Therapeutic Targets and Action Sequences for Proactive Counseling Dialogue Systems

Jihyun Lee et al.

cs.AI

本文提出了一个用于主动式心理咨询对话系统的数据集STEP和模型STEPPER. 该模型通过偏好学习进行优化, 在认知行为治疗(CBT)评估中表现出更高的临床相关性和共情能力.

Empirical Characterization of Rationale Stability Under Controlled Perturbations for Explainable Pattern Recognition

Abu Noman Md Sakib et al.

cs.AI cs.CL cs.LG

本文提出了一种评估模型解释一致性的新指标, 用于量化模型在面对标签保持扰动时, 其解释(如SHAP值)的稳定性. 通过在SST-2等数据集上对BERT系列模型进行实验, 该方法旨在检测模型对相似输入产生不一致归因的行为.

The Topology of Multimodal Fusion: Why Current Architectures Fail at Creative Cognition

Xiujiang Tan

cs.AI

本文从哲学、认知科学和数学三个层面，分析了当前多模态AI架构（如对比学习、交叉注意力和扩散模型）存在的一个结构性局限，即其内在的“模态可分性”拓扑先验。作者提出了一个基于纤维丛和杨-米尔斯曲率的数学形式化框架，并设计了相应的基准测试和实验路线图来验证其理论。

What Makes a Sale? Rethinking End-to-End Seller--Buyer Retail Dynamics with LLM Agents

Jeonghwan Choi et al.

cs.AI cs.CL

本文提出了一个名为RetailSim的端到端零售模拟框架, 用于在统一环境中建模从卖家说服到买家决策的完整零售流程. 该框架通过多样化产品空间, 角色驱动的agent和多轮交互来提升模拟保真度, 并展示了其在角色推断和销售策略评估等任务中的实用性.

Scalable and Explainable Learner-Video Interaction Prediction using Multimodal Large Language Models

Dominik Glandorf, Fares Fawzi, Tanja Käser

cs.AI

本文提出了一种利用多模态大语言模型(MLLMs)预测学习者与教学视频交互行为(如暂停、跳过)的可扩展且可解释的管道. 该方法通过分析视频片段嵌入来识别交互峰值, 并借助多媒体学习理论的概念对预测结果进行解释.

Memory Intelligence Agent

Jingyang Qiao et al.

cs.AI cs.MA

本文提出了一种名为Memory Intelligence Agent (MIA)的新型深度研究智能体框架, 它通过Manager-Planner-Executor架构来改进记忆系统. 该框架结合了参数化与非参数化记忆, 并引入了在线测试时学习机制, 在多个基准测试上展现了优越性能.

SuperLocalMemory V3.3: The Living Brain -- Biologically-Inspired Forgetting, Cognitive Quantization, and Multi-Channel Retrieval for Zero-LLM Agent Memory Systems

Varun Pratap Bhardwaj

cs.AI cs.CL cs.IR

本文介绍了一个名为SuperLocalMemory V3.3的本地智能体记忆系统，该系统模拟了人类认知记忆的分类和生命周期动态。它提出了新的量化感知距离度量、自适应遗忘曲线以及多通道检索方法，旨在解决现有AI编码代理长期记忆能力不足的问题。该系统在零LLM模式下展示了良好的性能，并已开源。

Receding-Horizon Control via Drifting Models

Daniele Foffano, Alessio Russo, Alexandre Proutiere

cs.AI

本文提出了一种名为Drifting MPC的离线轨迹优化框架, 结合了drifting generative models和receding-horizon planning来处理未知系统动力学. 该方法旨在从离线数据中学习一个既符合数据分布又偏向最优计划的轨迹条件分布, 并在实验中展示了其生成接近最优轨迹的能力.

Greedy and Transformer-Based Multi-Port Selection for Slow Fluid Antenna Multiple Access

Darian Perez-Adan et al.

cs.AI cs.LG

本文针对多端口流体天线多址接入系统中的端口选择问题, 提出了两种互补的策略. 一种是基于贪心前向选择与交换优化的确定性方法, 另一种是基于Transformer架构并通过模仿学习与策略梯度训练的神经网络方法.

Same World, Differently Given: History-Dependent Perceptual Reorganization in Artificial Agents

Hongju Pae

cs.AI

本文提出了一种包含慢速视角潜在变量$g$反馈的最小架构, 使得智能体能够根据其累积的立场对相同观察进行不同的编码. 该模型在一个具有固定空间支架和感官扰动的网格世界中进行评估, 结果表明扰动历史会在适应性可塑性中留下可测量的痕迹, 并且感知编码会根据先验经验进行重组.

Search, Do not Guess: Teaching Small Language Models to Be Effective Search Agents

Yizhou Liu et al.

cs.AI

本文提出了一种名为\policy的轻量级微调方法, 旨在提升小型语言模型(SLMs)作为搜索代理的可靠性. 该方法通过显式训练SLMs进行可靠的检索并基于检索证据生成答案, 在多项复杂推理任务上超越了基于大型语言模型(LLM)的智能体蒸馏方法, 达到了与LLM相当的性能水平.

Springdrift: An Auditable Persistent Runtime for LLM Agents with Case-Based Memory, Normative Safety, and Ambient Self-Perception

Seamus Brady

cs.AI

本文介绍了一个名为Springdrift的持久化LLM agent运行时系统。该系统整合了可审计执行、基于案例的混合检索记忆、确定性安全规范演算以及环境自我感知等组件，旨在支持跨会话的任务连续性和决策可追溯性。报告基于一个为期23天的单实例部署案例，展示了系统在无明确指令下进行自我诊断和跨渠道上下文维护的能力。

On the "Causality" Step in Policy Gradient Derivations: A Pedagogical Reconciliation of Full Return and Reward-to-Go

Nima H. Siboni

cs.AI

本文通过引入前缀轨迹分布和score-function identity, 为策略梯度推导中从"full return"到"reward-to-go"的转换步骤提供了一个清晰的数学解释. 它澄清了"因果性"论证的数学基础, 但并未改变REINFORCE估计量本身.

AI Assistance Reduces Persistence and Hurts Independent Performance

Grace Liu et al.

cs.AI

本文通过随机对照实验研究了AI辅助对人类长期学习能力的影响. 研究发现, 尽管AI能短期提升任务表现, 但会显著降低使用者的坚持力和独立解决问题的能力.

AI Trust OS -- A Continuous Governance Framework for Autonomous AI Observability and Zero-Trust Compliance in Enterprise Environments

Eranga Bandara et al.

cs.AI

本文提出了一个名为 AI Trust OS 的治理框架，旨在通过持续的、自主的 AI 可观测性和零信任合规性来解决企业环境中 AI 系统的治理危机。该框架基于遥测证据和自动化探针，将合规性重构为一个持续运行的运营层。

ANX: Protocol-First Design for AI Agent Interaction with a Supporting 3EX Decoupled Architecture

Xu Mingze

cs.AI cs.CL

本文提出了一个名为ANX的、面向AI agent交互的协议优先设计框架及其3EX解耦架构. 该框架旨在通过协议创新和架构优化, 解决现有方法在token消耗、交互碎片化和安全性方面的缺陷.

MemMachine: A Ground-Truth-Preserving Memory System for Personalized AI Agents

Shu Wang et al.

cs.AI

本文提出了一种名为MemMachine的用于个性化AI代理的持久记忆系统. 该系统通过整合短期、长期情景和档案记忆, 并采用保留真实性的架构来减少信息损失. 它在多个基准测试中展示了较好的准确性与效率权衡.

Incompleteness of AI Safety Verification via Kolmogorov Complexity

Munawar Hasan

cs.AI

本文利用 Kolmogorov complexity 分析了 AI 系统安全策略符合性的形式化验证问题. 作者证明了一个不完备性结果: 对于任何固定的、可计算的验证器, 都存在一个复杂度阈值, 超过该阈值后, 真实的合规实例将无法被证明, 从而揭示了独立于计算资源的根本性限制.

Learning, Potential, and Retention: An Approach for Evaluating Adaptive AI-Enabled Medical Devices

Alexis Burgon et al.

cs.AI cs.PF

本文针对自适应AI医疗设备评估中的模型与数据集迭代更新问题, 提出了一种结合learning, potential和retention三个互补指标的评估框架. 通过模拟人群分布变化的案例研究, 展示了该方法在分析模型适应性与环境动态性对性能影响方面的实用性.

QED-Nano: Teaching a Tiny Model to Prove Hard Theorems

LM-Provers et al.

cs.AI cs.CL cs.LG

本文提出了一种名为QED-Nano的小型开源模型, 用于生成奥林匹克数学竞赛级别的证明. 通过结合监督微调, 基于规则的强化学习以及带推理缓存的迭代优化, 该模型在较低推理成本下取得了与大型专有模型接近的性能.

cs.IR

BridgeRAG: Training-Free Bridge-Conditioned Retrieval for Multi-Hop Question Answering

Andre Bacellar

cs.IR

本文提出了一种无需训练、无需图结构的检索方法BridgeRAG，用于处理多跳问答任务。该方法通过一个三元评分器$s(q,b,c)$来评估问题、桥梁证据和候选证据之间的关系，并在多个标准基准测试上取得了优异的检索性能。

Align then Train: Efficient Retrieval Adapter Learning

Seiji Maekawa et al.

cs.IR cs.CL

本文提出了一种名为Efficient Retrieval Adapter (ERA)的两阶段训练框架, 用于解决复杂查询与简单文档之间的检索不匹配问题. 该方法首先进行自监督对齐, 然后利用有限标注数据进行监督适应, 从而在不重新索引文档库的情况下提升检索效果.

Lightweight Query Routing for Adaptive RAG: A Baseline Study on RAGRouter-Bench

Prakhar Bansal, Shivangi Agarwal

cs.IR cs.CL cs.LG

本文在RAGRouter-Bench基准上，首次系统评估了基于轻量级分类器的查询路由方法。通过比较不同特征与分类器的组合，发现TF-IDF特征结合SVM能有效预测查询类型并节省计算开销。

LLM-based Listwise Reranking under the Effect of Positional Bias

Jingfen Qiao et al.

cs.IR

本文针对LLM-based listwise reranking中存在的positional bias问题进行了研究. 作者提出了一个结合了positional calibration和position-aware data augmentation的微调方法DebiasFirst, 以提升模型的有效性和鲁棒性.

Joint Behavior-guided and Modality-coherence Conditional Graph Diffusion Denoising for Multi Modal Recommendation

Xiangchen Pan, Wei Wei

cs.IR

本文提出了一种联合行为引导与模态一致的条件图扩散去噪模型(JBM-Diff), 用于多模态推荐. 该模型通过条件扩散过程去除模态特征中的偏好无关信息, 并利用行为一致性检测来校正反馈偏差, 从而提升推荐准确性.

MMP-Refer: Multimodal Path Retrieval-augmented LLMs For Explainable Recommendation

Xiangchen Pan, Wei Wei

cs.IR

本文提出了一个名为MMP-Refer的框架，用于增强可解释推荐。该框架利用多模态检索路径和检索增强的大语言模型，通过设计启发式搜索算法获取路径，并引入可训练的协作适配器来整合交互信息。实验验证了该方法的有效性。

User Simulator-Guided Multi-Turn Preference Optimization for Reasoning LLM-based Conversational Recommendation

Xingyuan Xiang, Xiangchen Pan, Wei Wei

cs.IR

本文提出了一个用户模拟器引导的多轮偏好优化对话推荐框架SMTPO. 它通过多任务监督微调提升模拟器反馈质量, 并利用强化学习优化推荐策略, 以缓解模拟反馈偏差在多轮交互中的累积问题.

Are LLM-Based Retrievers Worth Their Cost? An Empirical Study of Efficiency, Robustness, and Reasoning Overhead

Abdelrahman Abdallah et al.

cs.IR

本文通过复现一个推理密集型的检索基准(BRIGHT), 对14种检索器在效率、鲁棒性和置信度信号等方面进行了实证评估. 研究发现, 基于大型语言模型的检索器在某些方面存在效率与性能的权衡, 且其置信度校准普遍较弱.

Fusion and Alignment Enhancement with Large Language Models for Tail-item Sequential Recommendation

Zhifu Wei et al.

cs.IR cs.AI

本文提出了一种名为FAERec的框架, 用于解决序列推荐中的长尾物品问题. 该框架通过自适应门控机制融合ID与LLM嵌入, 并采用双重对齐策略来缓解嵌入空间的结构不一致性.

Rank, Don't Generate: Statement-level Ranking for Explainable Recommendation

Ben Kabongo, Arthur Satouf, Vincent Guigue

cs.IR

本文提出将可解释推荐重新形式化为一个语句级别的排序问题, 而非生成问题. 通过从评论中提取候选解释性语句并进行排序, 该方法旨在减少幻觉并支持细粒度的事实分析. 作者还构建了一个基准数据集 StaR, 并评估了流行度基线模型与先进模型在全局和物品级别排序上的表现.

Semantic IDs for Recommender Systems at Snapchat: Use Cases, Technical Challenges, and Design Choices

Clark Mingxuan Ju et al.

cs.IR

本文讨论了在Snapchat推荐系统中应用Semantic IDs (SIDs)的实践经验。文章概述了SIDs相比传统原子ID的优势，并分享了在模型部署过程中遇到的技术挑战与相应的设计选择。

MisEdu-RAG: A Misconception-Aware Dual-Hypergraph RAG for Novice Math Teachers

Zhihan Guo et al.

cs.IR cs.CL

本文提出了一个名为MisEdu-RAG的框架，旨在帮助新手数学教师处理学生的数学误解。该框架采用基于双超图的检索增强生成技术，通过整合教学知识和真实错误案例来生成更具操作性的教学反馈。

FLAME: Condensing Ensemble Diversity into a Single Network for Efficient Sequential Recommendation

WooJoo Kim et al.

cs.IR

本文提出了一种名为FLAME的框架, 用于高效的序列推荐. 它通过模块化集成和引导互学习, 将集成模型的多样性压缩到单个网络中, 从而在推理时实现集成级别的性能而无需额外开销.

Formalized Information Needs Improve Large-Language-Model Relevance Judgments

Jüri Keller et al.

cs.IR

本文探讨了在基于Large Language Models (LLMs) 的检索评估中，使用形式化的信息需求（如结构化的topics）是否能提升相关性判断的可靠性。研究发现，与仅使用查询相比，形式化需求能减少LLM判断的相关文档数量，提高评估者间一致性，从而增强评估的可靠性。

A Logical-Rule Autoencoder for Interpretable Recommendations

Jinhao Pan, Bowen Wei, Ziwei Zhu

cs.IR cs.LG

本文提出了一种用于协同过滤的逻辑规则可解释自编码器(LIA), 其核心是一个可学习的逻辑规则层, 其中的规则神经元通过门参数在训练中自动选择AND或OR运算符. 该方法通过连接权重的符号来编码否定, 从而学习到显式、可读的重构规则, 在保持完全可解释性的同时提升了推荐性能.

FAVE: Flow-based Average Velocity Establishment for Sequential Recommendation

Ke Shi et al.

cs.IR cs.CL

本文提出了一种基于流的平均速度建立框架, 用于序列推荐中的一步生成. 该方法通过两阶段训练, 引入语义锚点先验和全局平均速度, 旨在解决传统"噪声到数据"范式中的先验不匹配和线性冗余问题, 从而在提升推荐性能的同时显著提高推理效率.

Retrieval Augmented Conversational Recommendation with Reinforcement Learning

Zhenrui Yue et al.

cs.IR

本文提出了一个结合检索增强与强化学习的对话推荐框架RAR, 通过两阶段动态桥接检索与生成来提升推荐性能与事实性. 该方法利用强化学习根据大语言模型的反馈迭代更新检索器, 并在构建的电影数据集上验证了有效性.

SLSREC: Self-Supervised Contrastive Learning for Adaptive Fusion of Long- and Short-Term User Interests

Wei Zhou et al.

cs.IR cs.LG

本文提出了一种名为SLSRec的会话推荐模型, 它通过分割历史行为来捕捉用户兴趣的时间动态. 该模型采用自监督对比学习框架来解耦长短期兴趣, 并设计了一个基于attention的融合网络来自适应地聚合兴趣表示.

Ruling Out to Rule In: Contrastive Hypothesis Retrieval for Medical Question Answering

Byeolhee Kim et al.

cs.IR cs.AI cs.CL

本文提出了一种名为Contrastive Hypothesis Retrieval (CHR)的框架，用于改进医学问答系统中的检索增强生成(RAG)。该方法通过生成并对比正确与错误诊断假设来优化文档检索，在多个基准测试上超越了现有基线。

Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

Youngjoon Jang et al.

cs.IR

本文探讨了在密集检索的知识蒸馏中, 训练数据的系统构成和教师模型分数分布的重要性. 作者提出了一种分层采样策略, 旨在均匀覆盖整个分数范围, 实验表明该方法在多个基准测试中优于传统的 top-K 和随机采样.

cs.CL

LLMs-Healthcare : Current Applications and Challenges of Large Language Models in various Medical Specialties

Ummara Mumtaz, Awais Ahmed, Summaya Mumtaz

cs.CL cs.AI

本文综述了大型语言模型(LLMs)在医疗健康领域的当前应用与挑战。文章概述了LLMs在癌症护理、皮肤病学等多个医学专科中的诊断与治疗功能，并讨论了整合过程中的机遇与限制。

Self-Execution Simulation Improves Coding Models

Gallil Maimon et al.

cs.CL cs.LG

本文提出了一种通过训练代码大语言模型(Code LLM)逐步模拟程序执行来提升其编程能力的方法. 该方法结合了基于自然语言执行轨迹的监督微调和基于可验证奖励的强化学习, 在多个竞技编程基准测试上取得了优于标准推理方法的效果.

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Minghe Shen et al.

cs.CL cs.AI

本文提出了一种基于约束最大似然估计(Constrained Maximum Likelihood Estimation)的新方法，用于估计大型语言模型(LLM)的失败率。该方法结合了少量人工标注数据、大量自动标注结果以及关于标注者性能的领域约束，在实验中相比现有方法取得了更准确、方差更低的估计结果。

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

Xinhao Huang, You-Liang Huang, Zeyi Wen

cs.CL cs.AI

本文提出了一种名为SoLA的无训练大语言模型压缩方法, 它结合了soft activation sparsity和low-rank decomposition. 该方法通过分析FFN中的激活模式, 保留关键组件并压缩其余部分, 在多个模型和基准测试上取得了优于现有方法的效果.

Why Attend to Everything? Focus is the Key

Hengshuai Yao et al.

cs.CL cs.AI

本文提出了一种名为Focus的高效attention方法, 它通过学习token分组而非近似所有token对来工作. 该方法在保持所有预训练权重冻结的情况下, 仅需训练少量参数即可提升模型在特定领域的性能, 并在推理时通过硬稀疏化实现加速.

VIGIL: An Extensible System for Real-Time Detection and Mitigation of Cognitive Bias Triggers

Bo Kang, Sander Noels, Tijl De Bie

cs.CL cs.CY cs.HC

本文介绍了一个名为VIGIL的浏览器扩展系统，用于实时检测和缓解在线信息中的认知偏见触发因素。该系统利用LLM进行信息重述，并支持可扩展的第三方插件。

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Keqin Xie

cs.CL cs.AI cs.GL cs.NE

本文提出了一种名为LPC-SM的混合自回归架构，用于长上下文语言建模。该架构将局部注意力、持久记忆、预测校正和运行时控制分离，并使用Orthogonal Novelty Transport (ONT)机制来管理慢速记忆的写入。实验表明，该模型在长序列任务上表现稳定，展示了超越单一注意力机制的可能性。

Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection

Andrey Pustovit

cs.CL

本文提出了一种名为"Knowledge Packs"的方法, 通过预计算并注入KV cache来传递知识, 从而在因果Transformer模型中实现零token消耗. 该方法利用了因果掩码的特性, 并展示了在正确格式化下可以实现与RAG相当的效果, 同时节省大量token.

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

Mete Ismayilzada et al.

cs.CL cs.AI

本文提出了一个名为CresOWLve的基准测试, 用于评估大语言模型在基于现实世界知识的谜题上的创造性问题解决能力. 该基准旨在弥补现有测试在反映真实场景创造性思维整合方面的不足, 评估显示当前模型在知识检索与创造性信息整合之间存在显著差距.

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

Haziq Mohammad Khalid, Salsabeel Shapsough, Imran Zualkernan

cs.CL

本文探讨了在推理时向transformer模型的内部表示注入校准的高斯扰动(noise steering)作为一种无需训练的方法, 用于提升阿拉伯语教育故事生成的多样性和阅读水平保真度. 实验表明, 在残差流(residual stream)中注入噪声能有效提升叙事多样性, 同时保持内容质量和约束遵循.

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

Leen AlQadi et al.

cs.CL

本文介绍了QIMMA, 一个以系统性基准验证为核心的质量保证阿拉伯语大语言模型排行榜. 它通过结合自动化模型判断与人工审核的多模型评估流程, 对现有阿拉伯语基准进行质量筛选和修正, 构建了一个包含超过5.2万个样本的精选评估套件.

Towards a theory of morphology-driven marking in the lexicon: The case of the state

Mohamed El Idrissi

cs.CL

本文探讨了名词在不同语言中的语义和形态句法差异, 以Riffian语为切入点, 提出了一个称为"形态驱动标记"的形式模型. 该模型将名词组织成模块化的认知集合, 以解释语言内部和跨语言的名词标记差异, 并重新评估了标记性和"状态"的概念.

The Tool Illusion: Rethinking Tool Use in Web Agents

Renze Lou et al.

cs.CL

本文通过大规模对照实验重新审视了Web智能体中的工具使用问题, 挑战了先前关于工具能带来一致性能提升的结论, 并探讨了工具设计的有效原则与潜在副作用. 研究旨在为未来工具使用智能体的发展提供更可靠的实证基础.

Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution

Jacob Dineen et al.

cs.CL cs.AI

本文提出了一种名为 vocabulary dropout 的方法，用于缓解大语言模型协同进化中提议者模型问题分布快速收敛、多样性丧失的问题。该方法通过在提议者模型的输出 logits 上施加随机硬掩码来维持课程多样性，并在数学推理任务上验证了其能提升求解器模型的性能。

Evolutionary Search for Automated Design of Uncertainty Quantification Methods

Mikhail Seleznyov et al.

cs.CL cs.AI

本文利用LLM驱动的进化搜索自动设计用于大语言模型不确定性量化的无监督方法. 在原子声明验证任务上, 自动生成的方法在多个数据集上超越了人工设计的基线, 并展现出良好的分布外泛化能力.

Cultural Authenticity: Comparing LLM Cultural Representations to Native Human Expectations

Erin MacMurray van Liemt et al.

cs.CL

本文提出了一种以人为中心的评估框架, 用于衡量大型语言模型(LLM)生成内容与本地文化期望的契合度. 研究发现, 某些模型存在西方中心主义的校准偏差, 并且所有模型都表现出高度相关的系统性错误模式.

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Sing Hieng Wong, Hassan Sajjad, A.B. Siddique

cs.CL cs.AI cs.LG

本文提出了一种名为LangFIR的方法, 用于从单语数据中发现稀疏的、语言特定的特征, 以实现对大型语言模型输出语言的控制. 该方法通过随机令牌序列过滤掉与语言无关的特征, 从而识别出对目标语言具有高度选择性的稀疏特征集, 并利用这些特征构建引导向量.

Rethinking Token Prediction: Tree-Structured Diffusion Language Model

Zihao Wu et al.

cs.CL cs.LG

本文提出了一种树结构的扩散语言模型, 通过将词汇表组织成树状结构来分解token预测任务, 从而显著降低了分类头的参数量和GPU内存峰值使用量. 在相同参数量下, 该方法在保持困惑度性能的同时, 将内存消耗降低了一半.

Text Summarization With Graph Attention Networks

Mohammadreza Ardestani, Yllias Chali

cs.CL

本文探讨了利用 Rhetorical Structure Theory (RST) 和 Co-reference (Coref) 等图结构信息来增强文本摘要模型性能的方法. 实验表明, Graph Attention Network 并未带来提升, 而简单的 Multi-layer Perceptron 架构在 CNN/DM 数据集上取得了更好的效果, 同时作者也为 XSum 数据集标注了 RST 图信息以供后续研究.

MultiPress: A Multi-Agent Framework for Interpretable Multimodal News Classification

Tailong Luo et al.

cs.CL

本文提出了一个名为MultiPress的多智能体框架, 用于可解释的多模态新闻分类. 该框架通过多阶段智能体协作与检索增强推理, 在新建的大规模数据集上取得了优于基线方法的性能.

Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation

Kening Zheng et al.

cs.CL cs.AI

本文分析了 Multilingual MoE (Mixture-of-Experts) 模型中的专家路由模式，发现了一种称为“语言路由隔离”的现象，即高资源和低资源语言倾向于激活不同的专家集合。基于此，作者提出了 RISE 框架，通过识别和适配语言特定的专家子网络来提升低资源语言的性能，同时保持其他语言的能力。

The Format Tax

Ivan Yee Lee, Loris D'Antoni, Taylor Berg-Kirkpatrick

cs.CL

本文探讨了要求大语言模型以JSON等结构化格式输出时, 对其推理和写作性能造成的显著负面影响, 即"格式税". 研究发现, 主要的性能损失源于提示中的格式要求本身, 而非后续的解码约束. 作者提出将推理与格式生成解耦的策略, 例如先生成自由文本再格式化, 能在多种模型和任务上有效恢复大部分损失的准确性. 研究表明, 该问题在当前开源模型中普遍存在, 而最新的闭源模型则基本不受影响.

CAGMamba: Context-Aware Gated Cross-Modal Mamba Network for Multimodal Sentiment Analysis

Minghai Jiao et al.

cs.CL

本文提出了一种用于多模态情感分析的CAGMamba框架。它利用Mamba模型处理时序上下文，并通过门控机制整合跨模态信息，在多个基准数据集上取得了有竞争力的结果。

Document-Level Numerical Reasoning across Single and Multiple Tables in Financial Reports

Yi-Cheng Wang, Wei-An Wang, Chu-Song Chen

cs.CL

本文针对大型语言模型(LLM)在长文档数值推理上的不足, 构建了金融报告数据集FinLongDocQA, 并提出了一个多智能体多轮检索增强生成方法FinLongDocAgent. 该方法通过迭代检索证据和验证结果, 提升了在长文档中进行跨表格数值推理的可靠性.

AI Appeals Processor: A Deep Learning Approach to Automated Classification of Citizen Appeals in Government Services

Vladimir Beskorovainyi

cs.CL cs.AI

本文提出了一种基于深度学习的政府服务公民诉求自动分类系统, 评估了多种NLP模型在真实数据集上的性能. 实验表明, Word2Vec与LSTM结合的架构在准确性和计算效率之间取得了较好的平衡.

'Layer su Layer': Identifying and Disambiguating the Italian NPN Construction in BERT's family

Greta Gorzoni, Ludovica Pannitto, Francesca Masini

cs.CL

本文通过 layer-wise probing 方法, 研究了 BERT 系列模型对意大利语 NPN (noun-preposition-noun) 构式的编码情况. 研究为构式语法理论与神经语言模型之间的对话提供了实证证据.

Unlocking Prompt Infilling Capability for Diffusion Language Models

Yoshinari Fujinuma, Keisuke Sakaguchi

cs.CL cs.AI

本文探讨了如何解锁 diffusion language models (dLMs) 的 prompt infilling 能力。作者通过改变监督微调(SFT)中的 masking 策略，使模型能够生成有效的 prompt 模板。

LightThinker++: From Reasoning Compression to Memory Management

Yuqi Zhu et al.

cs.CL cs.AI cs.IR cs.LG cs.MM

本文提出了一种名为LightThinker++的方法, 用于管理大型语言模型在长序列推理过程中的内存. 该方法通过动态压缩中间思考痕迹来提升效率, 并在复杂任务中展现出稳定的性能.

Researchers waste 80% of LLM annotation costs by classifying one text at a time

Christian Pipal et al.

cs.CL

本文指出, 在社会科学研究中, 使用 large language models (LLMs) 进行文本分类时, 逐条处理文本的方式会浪费大量 API 调用成本. 通过实验证明, 将多个文本 (batch) 和多个分类维度 (stack) 合并到单个 prompt 中, 可以在保持分类准确率基本不变的前提下, 显著降低 token 消耗.

POEMetric: The Last Stanza of Humanity

Bingru Li, Han Wang, Hazel Wilkinson

cs.CL

本文提出了首个全面的诗歌评估框架POEMetric, 用于系统评估大语言模型(LLMs)与人类诗人在诗歌创作上的差距. 实验表明, 尽管顶级模型在形式遵循和主题对齐上表现良好, 但在创造力、情感共鸣等高级能力及整体诗歌质量上仍远不及人类诗人.

Testing the Limits of Truth Directions in LLMs

Angelos Poulis, Mark Crovella, Evimaria Terzi

cs.CL cs.AI

本文探讨了LLMs中线性truth direction的普遍性局限, 指出其高度依赖于模型层数、任务类型与复杂度以及指令提示, 挑战了先前关于其普遍性的结论.

Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs

Wenhui Zhu et al.

cs.CL

本文评估了多智能体系统中存在的间接提示注入(IPI)安全漏洞, 并测试了多种防御策略. 研究发现现有防御措施普遍脆弱, 并提出了一种基于表征工程(RepE)的检测方法, 能在智能体执行恶意指令前进行拦截.

When Models Know More Than They Say: Probing Analogical Reasoning in LLMs

Hope McGovern et al.

cs.CL cs.AI cs.LG

本文通过比较模型在探测表征和提示性能上的表现, 研究了大型语言模型在类比推理任务中的能力. 研究发现, 对于不同类型的类比, 模型内部表征与提示行为之间的关系存在差异, 提示机制在访问可用信息方面可能存在局限.

I-CALM: Incentivizing Confidence-Aware Abstention for LLM Hallucination Mitigation

Haotian Zong et al.

cs.CL cs.AI

本文提出了一种名为I-CALM的提示框架，旨在通过激励机制减少大型语言模型在事实性问题上的幻觉。该方法通过引导模型报告其置信度，并对选择弃答的行为给予部分奖励，从而在不重新训练模型的情况下，将易错回答转化为弃答，提高了回答的可靠性。

From Plausible to Causal: Counterfactual Semantics for Policy Evaluation in Simulated Online Communities

Agam Goyal et al.

cs.CL

本文讨论了在基于LLM的在线社区模拟中, 如何从生成看似可信的交互转向进行因果政策评估. 作者主张采用反事实因果框架, 区分必要因果与充分因果, 并探讨了其对不同利益相关者的意义.

Uncertainty as a Planning Signal: Multi-Turn Decision Making for Goal-Oriented Conversation

Xinyi Ling et al.

cs.CL cs.AI

本文提出了一种用于目标导向对话的Conversation Uncertainty-aware Planning框架(CUP), 它将语言模型与结构化规划相结合. 该框架利用不确定性作为规划信号, 旨在协调多轮对话中的信息获取与目标确认, 实验表明其能提高成功率并减少交互轮次.

AdaptFuse: Training-Free Sequential Preference Learning via Externalized Bayesian Inference

Fangzhou Lin et al.

cs.CL cs.AI

本文提出了一种无需训练的序列偏好学习框架 AdaptFuse, 通过将贝叶斯推断过程外部化来解决大语言模型在多轮交互中更新信念的问题. 该方法结合了符号模块和冻结的 LLM, 在多个推荐任务上超越了现有基线.

Predict, Don't React: Value-Based Safety Forecasting for LLM Streaming

Pride Kavumba et al.

cs.CL cs.LG

本文提出了一种名为StreamGuard的模型无关流式护栏方法, 它将内容审核重新定义为预测问题. 该方法通过Monte Carlo rollout来监督对部分前缀未来生成内容危害性的预测, 从而在无需精确边界标注的情况下实现早期干预. 实验表明, 该方法在多个安全基准测试中提升了输入和流式输出审核的性能, 并且其基于预测的监督方式能够有效跨分词器和模型家族迁移.

RUQuant: Towards Refining Uniform Quantization for Large Language Models

Han Liu et al.

cs.CL

本文提出了一种名为RUQuant的两阶段正交变换方法, 用于改进大型语言模型(Large Language Models, LLMs)激活(activation)的均匀量化(Uniform Quantization). 该方法通过构造正交矩阵来调整激活的分布, 以减少量化误差, 并在不进行模型微调(fine-tuning)的情况下取得了较好的效果.

GeoBrowse: A Geolocation Benchmark for Agentic Tool Use with Expert-Annotated Reasoning Traces

Xinyu Geng et al.

cs.CL

本文提出了一个结合视觉推理与知识密集型多跳查询的地理定位基准GeoBrowse, 并提供了一个包含多种工具的智能体工作流程GATE用于评估. 实验表明, 该基准能有效测试智能体整合碎片化视觉线索并进行多步验证的能力.

Unmasking Hallucinations: A Causal Graph-Attention Perspective on Factual Reliability in Large Language Models

Sailesh kiran kurra, Shiek Ruksana, Vishal Borusu

cs.CL cs.LG

本文提出了一种基于因果图注意力网络(GCAN)的框架, 旨在减少大型语言模型(LLM)中的幻觉问题. 该方法通过构建token级别的图来量化token的事实依赖性, 并在标准基准测试上展示了性能提升.

Emergent Inference-Time Semantic Contamination via In-Context Priming

Marcin Abram

cs.CL

本文通过实验研究了在 few-shot prompting 中，注入特定文化关联数字对大型语言模型输出分布的影响。研究发现，能力更强的模型会出现显著的语义偏移，而较小的模型则不受影响，揭示了推理时语义污染的存在条件。

Extracting and Steering Emotion Representations in Small Language Models: A Methodological Comparison

Jihoon Jeong

cs.CL cs.AI

本文比较了从 small language models (SLMs) 中提取情感向量 (emotion vectors) 的两种方法。研究发现，基于生成的方法能获得更好的情感表征分离，并且这些表征主要位于模型的中间层。

Embedding Enhancement via Fine-Tuned Language Models for Learner-Item Cognitive Modeling

Yuanhao Liu et al.

cs.CL cs.AI cs.CY cs.LG

本文提出了一个名为EduEmbed的统一框架, 通过微调语言模型来增强学习者-项目认知建模中的嵌入表示. 该框架旨在弥合语言模型训练目标与认知诊断任务之间的语义鸿沟, 并在多种认知诊断任务上进行了评估, 展现了稳健的性能提升.

Shorter, but Still Trustworthy? An Empirical Study of Chain-of-Thought Compression

Lingjie Zeng et al.

cs.CL

本文研究了 chain-of-thought (CoT) 压缩对模型可信赖性的影响。研究发现，压缩方法在保持任务准确率的同时，经常会在安全性、抗幻觉能力和多语言鲁棒性等可信赖性维度上引入性能衰退。

Many Preferences, Few Policies: Towards Scalable Language Model Personalization

Cheol Woo Kum et al.

cs.CL cs.AI

本文提出了一种名为PALM的方法, 用于从少量LLM模型组合中近似满足多样化的用户偏好. 该方法通过理论分析证明了组合规模与近似质量之间的权衡, 并通过实验验证了其有效性.

A Semi-Automated Annotation Workflow for Paediatric Histopathology Reports Using Small Language Models

Avish Vijayaraghavan et al.

cs.CL cs.IR

本文提出了一种使用小型语言模型(SLMs)从儿科组织病理学报告中提取结构化信息的半自动化标注工作流程. 该方法在仅使用CPU的基础设施上运行, 通过将信息提取任务构建为基于临床实体指南和少量示例的问答任务, 在特定数据集上取得了优于现有模型的性能.

Position: Logical Soundness is not a Reliable Criterion for Neurosymbolic Fact-Checking with LLMs

Jason Chan, Robert Gaizauskas, Zhixue Zhao

cs.CL

本文指出, 在基于LLMs的neurosymbolic事实核查系统中, 单纯依赖formal logic的logical soundness作为判断标准存在结构性缺陷. 作者认为, 由于人类推理与形式逻辑推理之间存在系统性差异, 逻辑上有效(sound)的结论可能产生误导性推断, 因此建议将LLMs的人类化推理倾向作为补充验证手段.

Which English Do LLMs Prefer? Triangulating Structural Bias Towards American English in Foundation Models

Mir Tafseer Nayeem, Davood Rafiei

cs.CL cs.AI cs.CY cs.ET cs.LG

本文通过构建美式英语与英式英语的对比语料库, 并引入一种无需训练的分布对齐评估方法 DiAlign, 系统性地分析了大型语言模型在预训练语料、分词器和生成输出三个阶段对美式英语的结构性偏好. 研究发现主流模型普遍将美式英语视为默认规范, 这引发了关于语言同质化和全球AI部署公平性的担忧.

DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

Jingyi Yang et al.

cs.CL

本文提出了一个名为DARE的开源框架, 用于统一和简化Diffusion large language models (dLLMs)的后训练与评估流程. 该框架整合了多种训练方法, 旨在降低研究复现的工程负担并促进算法间的公平比较.

CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling

Dejan Čugalj, Aleksandar Jevremovic

cs.CL

本文提出了一种名为Continuous Acoustic Wave Network (CAWN)的连续序列混合架构，用于自回归语言建模。它通过将隐藏状态投影到复数域相位器，并使用$O(L)$的Phase Accumulation机制来替代传统的self-attention，旨在解决长上下文中的信号衰减问题。

Adaptive Cost-Efficient Evaluation for Reliable Patent Claim Validation

Yongmin Yoo, Qiongkai Xu, Longbing Cao

cs.CL

本文提出了一种用于专利权利要求验证的自适应成本效益评估框架ACE. 该框架通过预测熵筛选高不确定性权利要求, 并利用基于法律标准的专家LLM进行验证, 在保持效率的同时提升了处理长程法律依赖的能力.

High-Stakes Personalization: Rethinking LLM Customization for Individual Investor Decision-Making

Yash Ganpat Sawant

cs.CL cs.LG

本文讨论了将个性化LLM应用于高风险个人投资决策领域时面临的独特挑战。作者基于一个已部署的投资组合管理系统，指出了标准LLM定制方法在行为记忆复杂性、投资逻辑一致性、风格与信号冲突以及缺乏确定性评估标准等四个方面的根本性局限，并提出了相应的架构应对方案和未来研究方向。

How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

Yujian Liu et al.

cs.CL

本文在现实场景下对LLM-based agents使用agent skills的性能进行了基准测试. 研究发现, 在需要从大规模技能库中检索且没有手工定制技能的情况下, 技能带来的性能提升会显著下降. 通过引入技能精炼策略, 可以部分恢复损失的效能.

Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction

Jinrui Fang et al.

cs.CL

本文提出了一个用于评估大语言模型在多轮医学诊断中表现的新基准MINT, 并揭示了模型在证据积累过程中存在的三种行为模式: 过早回答意图、自我纠正倾向以及被突出临床信息强烈诱导. 研究进一步将这些发现转化为可操作的指导建议, 例如推迟提问和调整证据呈现顺序, 以提升模型在实际诊断场景中的可靠性.

GROUNDEDKG-RAG: Grounded Knowledge Graph Index for Long-document Question Answering

Tianyi Zhang, Andreas Marfurt

cs.CL cs.AI

本文提出了一种名为GroundedKG-RAG的检索增强生成系统, 用于长文档问答. 该系统通过从源文档中显式提取并锚定知识图谱来提高事实准确性, 在NarrativeQA数据集上取得了与先进专有长上下文模型相当的性能.

Compressible Softmax-Attended Language under Incompressible Attention

Wonsuk Lee

cs.CL cs.AI

本文分析了transformer语言模型中attention head的logit energy field $\tilde{E}$与learned interaction matrix $W_Q^\mathrm{T} W_K$的奇异值谱。研究发现，语言数据本身具有高度可压缩性，其交互主要集中于少数奇异分量，而attention机制却均匀地使用了所有维度。

How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

Gregory N. Frank

cs.CL cs.AI cs.LG

本文研究了经过alignment训练的语言模型中一种稀疏的routing机制. 该机制涉及一个gate attention head检测内容并触发下游的amplifier heads来增强拒绝信号, 作者通过政治审查和安全拒绝等实验在多个模型中验证了其存在.

Responses Fall Short of Understanding: Revealing the Gap between Internal Representations and Responses in Visual Document Understanding

Haruka Kawasaki, Ryota Tanaka, Kyosuke Nishida

cs.CL cs.AI cs.CV

本文通过 linear probing 方法研究了 LVLMs 在 VDU 任务中内部表征与生成响应之间的差异。研究发现，任务所需信息在中层网络中的编码比最终层更线性，并据此提出了针对中间层的微调策略。

Structured Causal Video Reasoning via Multi-Objective Alignment

Zinuo Li et al.

cs.CL

本文提出了一种名为Structured Event Facts的紧凑表示方法, 用于在推理前构建视频中显著事件及其因果关系的结构化先验. 通过引入CausalFact-60K数据集和一个包含多阶段对齐与训练流程, 并利用多目标强化学习来平衡结构完整性与推理长度等竞争目标, 最终训练出的Factum-4B模型在需要细粒度时序推理的视频理解任务上表现更优.

DeonticBench: A Benchmark for Reasoning over Rules

Guangyao Dou et al.

cs.CL

本文提出了一个名为DeonticBench的基准测试，用于评估大型语言模型在长上下文、高风险的道义推理任务上的表现。该基准涵盖了多个现实领域，并支持符号化与非符号化两种推理路径。

Conversational Control with Ontologies for Large Language Models: A Lightweight Framework for Constrained Generation

Barbara Gendron, Gaël Guibon, Mathieu d'Aquin

cs.CL cs.AI

本文提出了一种利用ontology（本体）对大型语言模型(LLM)进行对话控制的轻量级框架。该方法通过定义对话相关方面的本体作为约束，并对模型进行微调，以实现模块化、可解释的受控生成。在两个具体任务上的实验表明，该方法能有效提升模型输出与策略指令的对齐。

Same Geometry, Opposite Noise: Transformer Magnitude Representations Lack Scalar Variability

Jon-Paul Cacioli

cs.CL q-bio.QM

本文分析了三个大型transformer语言模型中数值大小表示的噪声特性. 研究发现, 模型的表征变异性随数值增大而减小, 这与生物系统中观察到的标量变异性规律相反.

CommonMorph: Participatory Morphological Documentation Platform

Aso Mahmudi et al.

cs.CL

本文介绍了一个名为CommonMorph的参与式形态学数据记录平台。该平台旨在通过专家定义、贡献者启发和社区验证的三层方法，简化低资源语言的形态数据收集工作。

Multilingual Prompt Localization for Agent-as-a-Judge: Language and Backbone Sensitivity in Requirement-Level Evaluation

Alhasan Mahmood, Samir Abdaljalil, Hasan Kurban

cs.CL cs.AI

本文研究了在基于代理的代码评估中，评估语言对模型性能的影响。通过将评估提示本地化到多种语言并测试不同模型，发现模型排名会因语言不同而反转，表明语言应被视为一个明确的评估变量。

Formal Constraints on Dependency Syntax

Gómez-Rodríguez et al.

cs.CL

本文探讨了dependency syntax中的形式约束, 特别是为了在projectivity的限制性和无限制dependency结构的过度宽松性之间寻找一个现实的中间地带. 文章回顾了各种旨在更好地拟合真实语言现象的约束.

PassiveQA: A Three-Action Framework for Epistemically Calibrated Question Answering via Supervised Finetuning

Madhav S Baidya

cs.CL cs.AI

本文提出了一个名为PassiveQA的三动作框架, 用于在信息不完整时进行决策感知的查询解析. 该框架通过监督微调使模型行为与信息充分性对齐, 在多个QA数据集上减少了幻觉率并提升了相关指标.

Benchmarking Multilingual Speech Models on Pashto: Zero-Shot ASR, Script Failure, and Cross-Domain Evaluation

Hanif Rahman

cs.CL

本文对多种多语言语音识别模型在普什图语上的零样本性能、脚本错误和跨域评估进行了基准测试。研究发现，零样本条件下模型表现差异巨大，且存在严重的脚本输出错误问题，同时微调模型在跨域数据上性能显著下降。

Is a Picture Worth a Thousand Words? Adaptive Multimodal Fact-Checking with Visual Evidence Necessity

Jaeyoon Jung, Yejun Yoon, Kunwoo Park

cs.CL cs.AI cs.CV

本文提出了一个自适应多模态事实核查框架AMuFC, 它通过两个协作的agent来动态决定是否使用视觉证据. 实验表明, 该方法在多个数据集上提升了验证性能, 并发布了一个新的数据集WebFC.

IDIOLEX: Unified and Continuous Representations for Idiolectal and Stylistic Variation

Anjali Kantharuban et al.

cs.CL

本文提出了IDIOLEX框架, 用于学习句子风格和方言的连续表示, 并将其与语义内容解耦. 该方法在阿拉伯语和西班牙语方言上进行了评估, 并探索了其在语言模型风格对齐中的应用.

BiST: A Gold Standard Bangla-English Bilingual Corpus for Sentence Structure and Tense Classification with Inter-Annotator Agreement

Abdullah Al Shafi et al.

cs.CL cs.AI

本文构建了一个高质量的孟加拉语-英语双语语料库BiST, 用于句子层面的语法结构(Simple, Complex, Compound, Complex-Compound)和时态(Present, Past, Future)分类. 该语料库包含超过3万条句子, 并通过多阶段标注框架确保了高标注者间一致性(Fleiss Kappa $\kappa$值分别为0.82和0.88). 基线实验表明, 利用互补语言特定表示的双编码器架构优于强多语言编码器, 该资源可用于语法建模、可控文本生成等任务.

What Makes Good Multilingual Reasoning? Disentangling Reasoning Traces with Measurable Features

Dayeon Ki, Kevin Duh, Marine Carpuat

cs.CL cs.AI

本文通过定义一套可量化的推理特征，研究了多语言推理中哪些特征与最终答案准确性相关。研究发现这些特征与准确性的关联强度在不同语言间差异显著，挑战了以英语为中心的奖励设计思路。

Individual and Combined Effects of English as a Second Language and Typos on LLM Performance

Serena Liu et al.

cs.CL cs.AI

本文研究了ESL(English as a Second Language)输入和拼写错误对LLM性能的个体及组合影响. 研究发现, 两种因素结合导致的性能下降通常大于单一因素, 且这种模式在封闭式任务中更为明显.

Metaphors We Compute By: A Computational Audit of Cultural Translation vs. Thinking in LLMs

Yuan Chang, Jiaming Qu, Zhu Li

cs.CL cs.AI

本文通过一个创意写作任务对LLMs的文化包容性进行了初步计算审计. 研究发现, 模型在隐喻生成任务中表现出刻板印象和西方中心主义, 提示其可能仅作为文化翻译器而非具备文化意识的推理伙伴.

Lighting Up or Dimming Down? Exploring Dark Patterns of LLMs in Co-Creativity

Zhu Li, Jiaming Qu, Yuan Chang

cs.CL

本文探讨了LLMs作为协作写作伙伴时可能出现的五种"暗黑模式"(如Sycophancy, Anchoring等), 这些行为可能抑制或扭曲创作过程. 通过在不同文学形式和主题下的控制实验, 研究发现这些模式普遍存在, 并可能无意中限制创造性探索.

Hallucination Basins: A Dynamic Framework for Understanding and Controlling LLM Hallucinations

Kalyan Cherukuri, Lav R. Varshney

cs.CL cs.AI eess.SY

本文提出了一个基于几何动力系统的理论框架, 将LLM的幻觉现象解释为潜在空间中任务依赖的吸引盆结构. 通过分析多个开源模型在不同基准测试中的自回归隐藏状态轨迹, 研究发现吸引盆的可分离性高度依赖于任务性质, 并利用任务复杂度和多吸引盆定理对此进行了形式化描述.

HUKUKBERT: Domain-Specific Language Model for Turkish Law

Mehmet Utku Öztürk, Tansu Türkoğlu, Buse Buz-Yalug

cs.CL cs.LG

本文提出了一个针对土耳其法律领域的专用语言模型 HukukBERT, 它通过混合领域自适应预训练方法在一个大规模的法律语料库上进行训练. 该模型在法律术语预测和法庭文书结构分割等任务上取得了当前最佳性能.

How Far Are We? Systematic Evaluation of LLMs vs. Human Experts in Mathematical Contest in Modeling

Yuhang Liu et al.

cs.CL

本文提出了一个面向问题、分阶段的评估框架, 用于系统评估大语言模型(LLMs)在数学建模竞赛中的端到端问题解决能力. 研究发现, 尽管LLMs在问题理解和公式化等早期阶段表现良好, 但在模型求解、代码实现和结果分析等执行阶段存在持续缺陷.

SkillX: Automatically Constructing Skill Knowledge Bases for Agents

Chenxi Wang et al.

cs.CL cs.AI cs.IR cs.LG cs.MA

本文提出了一个名为SkillX的自动化框架, 用于为智能体(agent)构建可插拔的技能知识库. 该框架通过多级技能设计, 迭代式技能精炼和探索性技能扩展等自动化流程, 从原始交互轨迹中提炼出层次化的技能表示, 旨在提升智能体学习的效率和泛化能力.

LiveFact: A Dynamic, Time-Aware Benchmark for LLM-Driven Fake News Detection

Cheng Xu et al.

cs.CL cs.AI

本文提出了一个名为LiveFact的动态基准, 用于评估大语言模型在假新闻检测中的时序推理能力. 该基准通过动态更新的证据集来模拟真实世界信息的不确定性, 并设计了分类和推理两种评估模式.

Plausibility as Commonsense Reasoning: Humans Succeed, Large Language Models Do not

Sercan Karakaş

cs.CL cs.AI

本文通过土耳其语中前置关系从句的附着歧义实验, 对比了人类与大型语言模型在利用事件合理性(plausibility)进行消歧时的表现. 实验表明, 人类能稳定地依据合理性选择高附着(High Attachment)或低附着(Low Attachment)解析, 而所测试的LLMs则表现出微弱、不稳定甚至相反的倾向.

MERIT: Multilingual Expert-Reward Informed Tuning for Chinese-Centric Low-Resource Machine Translation

Zhixiang Lu et al.

cs.CL

本文提出了一个名为MERIT的框架, 用于提升中文到低资源东南亚语言的神经机器翻译(NMT)性能. 该框架结合了特定语言标记前缀(LTP), 监督微调(SFT)以及一种由语义对齐奖励(SAR)引导的新型组相对策略优化(GRPO)方法.

Do No Harm: Exposing Hidden Vulnerabilities of LLMs via Persona-based Client Simulation Attack in Psychological Counseling

Qingyang Xu et al.

cs.CL

本文提出了Persona-based Client Simulation Attack (PCSA)框架, 用于测试大型语言模型(LLMs)在心理咨询场景中的安全性. 实验表明, 该方法能有效诱导模型生成有害回应, 揭示了现有安全对齐在专业领域仍存在脆弱性.

Synthetic Sandbox for Training Machine Learning Engineering Agents

Yuhang Zhou et al.

cs.CL cs.LG

本文提出了一个名为SandMLE的多智能体框架，用于高效训练机器学习工程智能体。该框架通过生成小规模、可验证的合成环境，大幅降低了传统强化学习所需的计算成本，从而首次在MLE领域实现了大规模在线策略学习。实验表明，该方法在多个基准测试上显著优于监督微调基线，并展现出良好的泛化能力。

Rethinking Exploration in RLVR: From Entropy Regularization to Refinement via Bidirectional Entropy Modulation

Hengrui Gu et al.

cs.CL cs.AI cs.LG

本文提出了一种名为AsymGRPO的新框架, 用于缓解强化学习与可验证奖励(RLVR)中的探索受限问题. 该方法通过非对称地调制正负轨迹的熵来区分有益熵与噪声熵, 从而改进探索效率.

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

Weian Mao et al.

cs.CL cs.CV

本文提出了一种名为TriAttention的KV cache压缩方法, 通过分析pre-RoPE空间中Q/K向量的集中性(concentration)现象, 利用三角函数级数来估计key的重要性, 从而在长序列推理任务中显著减少内存占用并提升吞吐量.

Early Stopping for Large Reasoning Models via Confidence Dynamics

Parsa Hosseini et al.

cs.CL cs.AI cs.LG

本文提出了一种基于中间答案置信度动态的早期停止方法 CoDE-Stop, 用于减少大型推理模型的计算开销. 该方法无需额外训练, 并在多个基准测试上显著降低了推理所需的 token 数量.

Beyond the Final Actor: Modeling the Dual Roles of Creator and Editor for Fine-Grained LLM-Generated Text Detection

Yang Li et al.

cs.CL

本文提出了一种名为RACE的细粒度检测方法, 用于区分LLM生成文本的四种精细类别. 该方法结合了Rhetorical Structure Theory构建逻辑图以分析创作者基础, 并提取Elementary Discourse Unit层面的特征以捕捉编辑者风格, 在实验中表现优于现有基线.

cs.DS

Improved Upper Bounds for the Directed Flow-Cut Gap

Greg Bodwin, Luba Samborska

cs.DS math.CO

本文改进了有向图流割间隙的上界, 证明了对于$n$个顶点的图, 该间隙至多为$n^{1/3 + o(1)}$. 此外, 文章还扩展了该问题不同变体之间的归约网络, 并证明了边版本与顶点版本问题的近似等价性.

Approximation Algorithms for Matroid-Intersection Coloring with Applications to Rota's Basis Conjecture

Stephen Arndt et al.

cs.DS

本文研究了拟阵交着色问题的算法. 对于两个拟阵, 给出了匹配已知存在性上界的2-近似多项式时间算法; 对于k个拟阵, 给出了首个不依赖于n的常数近似算法. 此外, 对于两个拟阵且最大色数较大的情形, 给出了完全多项式随机近似方案(FPRAS).

On the Efficiency of Sinkhorn-Knopp for Entropically Regularized Optimal Transport

Kun He

cs.DS cs.LG

本文分析了 Sinkhorn-Knopp (SK) 算法在熵正则化最优传输 (EOT) 问题中的效率。针对理论分析在存在离群值时性能严重下降的问题，作者引入了 well-boundedness 概念，并证明在满足此条件时，SK 算法的迭代复杂度可以独立于正则化成本 $\eta\|C\|_\infty$。此外，通过一个预缩放步骤，可以进一步实现与维度无关的 $O(\log(1/\varepsilon))$ 迭代复杂度。

SVD Provably Denoises Nearest Neighbor Data

Ravindran Kannan, Kijun Shin, David Woodruff

cs.DS

本文研究了高维空间中受高斯噪声污染的低维数据的最近邻搜索问题. 作者证明, 当噪声标准差$\sigma$低于$O(1/k^{1/4})$时, 简单的SVD去噪方法就能从含噪数据中恢复出原始数据的真实最近邻.

Uniform Sampling of Proper Graph Colorings via Soft Coloring and Partial Rejection Sampling

Sarat Moka, Ava Vahedi

cs.DS cs.CC math.PR

本文提出了一种基于partial rejection sampling (PRS)和软约束松弛的算法，用于均匀采样图的proper $k$-coloring。该算法具有内在并行性，并通过一种混合变体将全局采样问题分解为规模为$O(\log n)$的子问题，从而降低了复杂度。

Online Graph Balancing and the Power of Two Choices

Nikhil Bansal et al.

cs.DS cs.DM

本文研究了i.i.d.模型下的在线图平衡问题, 其中边按随机顺序到达. 作者证明了对于任意基础图$G$, 存在一种在线算法是$O(\log\!\log n)$-竞争的, 这几乎是最优的. 该结果通过引入图的log-skewness概念和一种基于分解的贪婪算法变体来实现.

DAG Covers: The Steiner Point Effect

Sujoy Bhore et al.

cs.DS

本文研究了允许引入Steiner点的DAG覆盖问题. 对于平面有向图和低树宽有向图, 分别构造了具有特定近似比和额外边数上界的Steiner DAG覆盖, 并证明了非Steiner覆盖在树宽为1的图上存在下界.

String Representation in Suffixient Set Size Space

Hiroki Shibata, Hideo Bannai

cs.DS

本文研究了字符串的重复性度量 $\chi$, 即最小 suffixient set 的大小. 作者提出了一种新的 substring equation system (SES) 模型, 并证明了对于任意字符串, 都存在一个大小为 $O(\chi(w))$ 的 SES 表示.

A characterization of one-sided error testable graph properties in bounded degeneracy graphs

Oded Lachish et al.

cs.DS

本文研究了在$p$-degenerate图中，使用随机邻居查询模型进行单边误差图性质测试的问题。它给出了此类性质可测试的完整结构刻画，指出其核心取决于被禁止子图的连通性。

Subset Balancing and Generalized Subset Sum via Lattices

Yiming Gao et al.

cs.DS cs.CC

本文研究了 Subset Balancing 问题及其推广形式 Generalized Subset Sum. 通过将问题约简到格上的 $\mathrm{SVP}_{\infty}$ 和 $\mathrm{CVP}_{\infty}$ 问题, 作者为特定系数集 $C$ 提供了确定性和随机性的单指数时间算法. 对于充分大的 $d$, 问题可在多项式时间内求解.

DAG Projections: Reducing Distance and Flow Problems to DAGs

Bernhard Haeupler, Yonggang Jiang, Thatchaphol Saranurak

cs.DS

本文提出了一种称为DAG投影的新方法, 可以将有向图$G$近似地简化为一个边数为$m^{1+o(1)}$的DAG. 该DAG能近似保持原图的所有点对距离或最大流值, 从而将许多在DAG上更简单高效的结果推广到一般有向图上.

Dominating Set with Quotas: Balancing Coverage and Constraints

Sobyasachi Chatterjee et al.

cs.DS

本文研究了Dominating Set with Quotas (DSQ)问题, 这是经典Dominating Set问题的一个推广, 其中每个顶点有覆盖数量的上下界约束. 论文分析了该问题的计算复杂性, 证明了其在某些稀疏图类上的W[1]-困难性, 并在树宽和有界扩张图类上给出了固定参数可解算法.

others

Emergent Compositional Communication for Latent World Properties ⭐ 精选

Tomek Kaszyński

cs.MA cs.LG

本文通过多智能体通信与迭代学习, 在无标签和监督的条件下, 从冻结的视频特征中涌现出对潜在物理属性(如弹性、摩擦、质量比)的离散化、组合性表示. 研究发现, 驱动此效果的关键是多智能体结构而非带宽或时间覆盖, 并且可通信的内容由感知先验决定: DINOv2 在空间可见的斜坡物理上表现更佳, 而 V-JEPA 2 在仅依赖动力学的碰撞物理上占优. 该涌现出的协议支持基于动作的条件规划与反事实推理, 并在真实物理视频上得到了验证, 展示了其泛化能力.

From Concept to Practice: an Automated LLM-aided UVM Machine for RTL Verification

Junhao Ye et al.

cs.AR cs.AI

本文提出了一种名为UVM^2的自动化验证框架, 该框架利用Large Language Models (LLMs)来自动生成和迭代优化基于Universal Verification Methodology (UVM)的测试平台(testbenches), 旨在显著减少集成电路(IC)设计验证中所需的手动编码工作量. 实验表明, 该框架在代码覆盖率和功能覆盖率上优于现有方案.

Copilot-Assisted Second-Thought Framework for Brain-to-Robot Hand Motion Decoding

Yizhe Li, Shixiao Wang, Jian K. Liu

cs.RO cs.AI cs.HC cs.LG

本文提出了一种结合CNN与attention的混合模型, 用于从EEG信号解码手部运动学, 并在抓握任务中取得了良好的性能. 进一步地, 文章引入了EEG-EMG多模态解码和一个基于有限状态机的后处理框架来提升解码轨迹的保真度, 并最终在仿真中控制机械臂.

Toward a Universal Color Naming System: A Clustering-Based Approach using Multisource Data

Aruzhan Sabitkyzy, Maksat Shagyrov, Pakizar Shamoi

cs.HC cs.AI cs.CV

本文提出了一种基于聚类和多源数据的框架, 旨在构建一个标准化的颜色命名系统. 该方法在服装数据集上展示了其在自动标注和基于内容的图像检索中的有效性.

BLADE: Better Language Answers through Dialogue and Explanations

Chathuri Jayaweera, Bonnie J. Dorr

cs.HC cs.CL

本文提出了一个名为BLADE的对话式教育助手, 它基于检索增强生成(RAG)框架, 旨在引导学生查阅课程材料而非直接提供答案. 在一门本科计算机科学课程中的研究表明, 该系统相比直接提供全部课程资源, 能改善学生对资源的使用和概念理解.

The Persuasion Paradox: When LLM Explanations Fail to Improve Human-AI Team Performance

Ruth Cohen et al.

cs.HC cs.AI cs.CL

本文通过实验发现, LLM生成的解释在提升人机协作任务表现上存在"说服力悖论". 在视觉推理任务中, 解释会提高用户信心但损害纠错能力, 而在语言逻辑任务中则能提升表现, 其效果高度依赖于任务类型.

FVRuleLearner: Operator-Level Reasoning Tree (OP-Tree)-Based Rules Learning for Formal Verification

Lily Jiaxin Wan et al.

cs.AR cs.AI cs.SE

本文提出了一个名为FVRuleLearner的框架，用于学习形式化验证中从自然语言生成SystemVerilog断言的规则。该方法基于一种新颖的Operator Reasoning Tree (OP-Tree)来结构化推理过程，旨在提高生成断言的语法和功能正确性。实验表明，该框架在多个指标上优于现有基线方法。

Personalized AI Practice Replicates Learning Rate Regularity at Scale

Jocelyn Beauchesne et al.

cs.CY cs.AI

本文利用一个名为Campus AI的数字平台收集的大规模学生交互数据，验证了学生在不同教育情境下学习速率具有一致性的发现。研究通过混合效应逻辑回归模型证实，学生在初始知识上差异显著，但学习速率的变化范围非常小。

Classifying Problem and Solution Framing in Congressional Social Media

Misha Melnyk et al.

cs.CY cs.AI cs.CL cs.SI

本文利用监督学习方法, 特别是BERTweet Base模型, 对美国参议员推文进行自动分类, 旨在区分其内容是聚焦于"问题"还是"解决方案". 研究在一个由专家标注的数据集上取得了较好的分类性能.

BLK-Assist: A Methodological Framework for Artist-Led Co-Creation with Generative AI Models

Daniel Grimes, Rachel M. Harrison

cs.CY cs.AI cs.CV cs.HC

本文提出了一个名为BLK-Assist的模块化框架，用于艺术家主导的生成式AI协同创作。该框架通过参数高效的方法对扩散模型进行特定艺术家的微调，并包含多个组件来处理从概念草图到高分辨率输出的完整工作流。

Evaluating Digital Inclusiveness of Digital Agri-Food Tools Using Large Language Models: A Comparative Analysis Between Human and AI-Based Evaluations

Githma Pewinya, Carolina Martins, Garcia Mariangel

cs.CY cs.CL

本文探讨了使用大型语言模型(LLM)快速评估数字农业工具包容性的可行性, 并与专家人工评估进行了比较分析. 研究发现LLM在某些维度上能近似专家判断, 但其可靠性因模型和情境而异.

Is your AI Model Accurate Enough? The Difficult Choices Behind Rigorous AI Development and the EU AI Act

Lucas G. Uberti-Bona Marin et al.

cs.CY cs.AI

本文探讨了AI模型“准确性”评估中隐含的规范性选择，并以欧盟《人工智能法案》为案例进行了法律-技术分析。文章指出，准确性的定义和测量并非纯粹技术问题，而是涉及风险分配和价值权衡的决策过程。

AI Governance Control Stack for Operational Stability: Achieving Hardened Governance in AI Systems

Horatio Morgan

cs.CY cs.AI

本文提出了一个用于AI系统操作稳定性的治理控制栈架构, 包含六个互补的治理层. 该架构旨在将治理实践与现有监管框架对齐, 为复杂环境中的可信AI操作提供蓝图.

SafeScreen: A Safety-First Screening Framework for Personalized Video Retrieval for Vulnerable Users

Wenzheng Zhao, Madhava Kalyan Gadiputi, Fengpei Yuan

cs.CV cs.AI cs.CR

本文提出了一个名为SafeScreen的安全优先视频筛选框架, 用于为易受伤害的用户(如痴呆症患者)提供个性化视频检索. 该框架将安全作为先决条件, 通过整合用户画像、多模态分析和LLM决策来实时评估和筛选视频内容, 确保内容的安全性和适宜性.

On the First Computer Science Research Paper in an Indian Language and the Future of Science in Indian Languages

Siddhartha Visveswara Jayanti

cs.GL cs.CL cs.CY cs.DC

本文作者分享了用泰卢固语撰写首篇原创计算机科学研究论文的经验, 涉及分布式计算领域. 作者还探讨了利用梵语语法资源和技术工具(如自创的TeluguTeX模板)来推动印度语言科学写作发展的愿景.

A reconfigurable smart camera implementation for jet flames characterization based on an optimized segmentation model

Gerardo Valente Vazquez-Garcia et al.

cs.CV cs.AI

本文提出了一种基于优化UNet分割模型和SoC FPGA平台的智能相机系统, 用于工业喷射火焰的实时表征. 该系统通过模型压缩和硬件映射实现了低延迟的边缘处理, 在保持分割精度的同时达到了30 FPS的性能.

Artificial Intelligence and Systemic Risk: A Unified Model of Performative Prediction, Algorithmic Herding, and Cognitive Dependency in Financial Markets

Shuchen Meng, Xupeng Chen

q-fin.CP cs.AI cs.GT q-fin.GN

本文构建了一个统一模型, 分析AI在金融市场中的采用如何通过performative prediction, algorithmic herding和cognitive dependency三个相互强化的渠道产生系统性风险. 模型预测系统性风险与AI渗透率呈凸性关系, 并利用SEC 13F filings数据进行了实证验证.

IPSL-AID: Generative Diffusion Models for Climate Downscaling from Global to Regional Scales

Kishanthan Kingston et al.

physics.ao-ph cs.AI cs.LG

本文提出了一种基于去噪扩散概率模型(denoising diffusion probabilistic model)的全球到区域气候降尺度工具IPSL-AID. 该模型利用ERA5再分析数据训练, 能够从粗分辨率输入生成高分辨率的温度、风和降水场, 并量化不确定性.

Event-Driven Neuromorphic Vision Enables Energy-Efficient Visual Place Recognition

Geoffroy Keime, Nicolas Cuperlier, Benoit R. Cottereau

cs.CV cs.AI cs.LG

本文提出了一种基于事件驱动相机和脉冲神经网络的视觉地点识别方法 SpikeVPR. 该方法在保持性能的同时, 显著降低了模型参数量和能耗.

Safe Decentralized Operation of EV Virtual Power Plant with Limited Network Visibility via Multi-Agent Reinforcement Learning

Chenghao Huang et al.

eess.SY cs.AI math.OC

本文提出了一种结合Transformer与多智能体强化学习的安全增强型虚拟电厂框架, 用于在配电网状态信息受限的条件下协调多个电动汽车充电站. 该方法通过集中训练与分散执行的范式, 并引入Lagrangian正则化来约束电压与需求满足, 在测试中减少了电压越限与运营成本.

Multi-Agent Training-free Urban Food Delivery System using Resilient UMST Network

Md Nahid Hasan et al.

cs.MA cs.LG

本文提出了一种基于Union of Minimum Spanning Trees (UMST)的无训练多智能体城市食品配送系统。该方法通过随机扰动生成多个最小生成树并取其并集，构建了一个稀疏且鲁棒的配送网络，在多个城市的数据集上验证了其效率与韧性。

Customized User Plane Processing via Code Generating AI Agents for Next Generation Mobile Networks

Xiaowen Ma et al.

eess.SY cs.AI

本文探讨了利用生成式AI代理为下一代移动网络按需生成定制化用户平面处理代码块的问题. 研究评估了模型选择、提示设计和代码模板等因素对生成准确性的影响, 并认为这为实现网络定制化提供了新途径.

Toward Artificial Intelligence Enabled Earth System Coupling

Maria Kaselimi, Anna Belehaki

physics.ao-ph cs.AI physics.data-an

本文是一篇综述, 探讨了人工智能(AI)方法如何为地球系统耦合建模创造新机遇. 文章聚焦于AI如何加强跨领域交互、支持更一致的多组分表示, 并推动统一的系统框架发展.

RAGnaroX: A Secure, Local-Hosted ChatOps Assistant Using Small Language Models

Benedikt Dornauer, Mircea-Cristian Racasan

cs.AR cs.AI

本文介绍了一个名为RAGnaroX的、完全在本地硬件上运行的资源高效型ChatOps助手。它采用Rust实现，集成了模块化数据摄取、混合检索和函数调用功能，在保持资源效率的同时，在多个QA数据集上取得了有竞争力的准确率。

Impact of geophysical fields on Deep Learning-based Lagrangian drift simulations

Daria Botvynko et al.

physics.ao-ph cs.AI

本文评估了不同 Eulerian 地球物理输入场对基于学习的 Lagrangian 漂移模拟方法 DriftNet 性能的影响。通过数值和真实漂流器实验发现，结合同化的海表流与海面高度数据能显著提升轨迹模拟精度，而加入海表温度通常会降低性能。

Expressibility of neural quantum states: a Walsh-complexity perspective

Taige Wang

cond-mat.str-el cond-mat.dis-nn cs.LG quant-ph

本文从 Walsh complexity 的视角研究了 additive neural quantum states 的表达能力. 作者证明, 对于具有近似均匀 Walsh spectrum 的态, 浅层网络在 tame regime 下无法高效生成所需的复杂度.

Scaling Teams or Scaling Time? Memory Enabled Lifelong Learning in LLM Multi-Agent Systems

Shanglin Wu et al.

cs.MA cs.AI

本文提出了一个用于LLM multi-agent systems的终身记忆框架LLMA-Mem, 并研究了在成本约束下团队规模与终身学习能力的交互关系. 实验表明, 该框架能在降低开销的同时提升长期任务性能, 并揭示了团队规模与性能之间的非单调关系.

3D-IDE: 3D Implicit Depth Emergent

Chushan Zhang et al.

cs.CV cs.AI

本文提出了一种名为3D-Implicit Depth Emergence的方法，用于多模态大语言模型中的3D场景理解。该方法通过几何自监督而非显式编码，使3D感知能力从统一的视觉表征中隐式地涌现出来，从而在推理时摆脱了对深度和姿态信息的依赖。

XAttnRes: Cross-Stage Attention Residuals for Medical Image Segmentation

Xinyu Liu, Qing Xu, Zhen Chen

cs.CV cs.AI cs.LG

本文提出了一种用于医学图像分割的跨阶段注意力残差机制, 通过维护一个包含编码器和解码器输出的全局特征历史池, 并使用轻量化的伪查询注意力进行选择性聚合. 该方法在多种数据集和成像模态上提升了现有分割网络的性能.

ENEC: A Lossless AI Model Compression Method Enabling Fast Inference on Ascend NPUs

Jinwu Yang et al.

cs.AR cs.DC cs.LG

本文提出了一种名为ENEC的无损压缩方法, 专为AI模型权重设计并针对华为Ascend NPU架构进行了优化. 该方法通过块状定长编码和一系列NPU特定优化, 在压缩比和吞吐量上超越了现有方案, 显著提升了Ascend NPU上的端到端推理性能.

MoViD: View-Invariant 3D Human Pose Estimation via Motion-View Disentanglement

Yejia Liu et al.

cs.CV cs.AI

本文提出了一种名为MoViD的框架, 用于解决3D人体姿态估计中的视角变化问题. 该方法通过解耦运动特征与视角信息, 并在边缘设备上实现实时推理, 在多个数据集上展现了性能提升.

AIFS-COMPO: A Global Data-Driven Atmospheric Composition Forecasting System

Paula Harder et al.

physics.ao-ph cs.AI

本文介绍了AIFS-COMPO，一个基于Transformer架构的数据驱动全球大气成分中期预报系统。该系统通过联合建模气象和大气成分变量，在计算资源大幅减少的情况下，取得了与现有业务系统相当或更优的预报技巧。

Embedding-Only Uplink for Onboard Retrieval Under Shift in Remote Sensing

Sangcheol Sim

cs.CV cs.AI

本文研究了一种在遥感影像分析中仅上传embedding的星上检索方案, 并评估其在多种分布偏移场景下的有效性. 实验表明, 一旦embedding上传成功, 系统可以根据具体任务选择最优的决策头, 而无需额外的上行链路开销.

Beyond Static Vision: Scene Dynamic Field Unlocks Intuitive Physics Understanding in Multi-modal Large Language Models

Nanxi Li et al.

cs.CV cs.AI

本文针对多模态大语言模型在直观物理理解, 特别是连续体对象动态理解上的不足, 提出了两个基准任务进行评估. 作者进一步引入了Scene Dynamic Field方法, 通过结合物理模拟器进行微调, 有效提升了模型在相关任务上的性能.

Downscaling weather forecasts from Low- to High-Resolution with Diffusion Models

Joffrey Dumont Le Brazidec et al.

physics.ao-ph cs.AI

本文提出了一种基于扩散模型的概率方法, 用于全球大气降尺度. 该方法在Anemoi框架内实现, 通过学习高分辨率场与插值低分辨率输入之间差异的条件分布, 将低分辨率集合预报转换为高分辨率集合.

Generative Chemical Language Models for Energetic Materials Discovery

Andrew Salij et al.

physics.chem-ph cond-mat.mtrl-sci cs.AI cs.CL cs.LG

本文利用预训练的生成式化学语言模型, 通过迁移学习策略将其应用于含能材料发现领域. 该方法旨在解决该领域高质量数据稀缺的问题, 并探讨了基于分子片段的编码方式在构建可合成结构方面的优势.

V-Reflection: Transforming MLLMs from Passive Observers to Active Interrogators

Jiazhou Zhou et al.

cs.CV cs.AI

本文提出了一种名为 V-Reflection 的框架，旨在解决多模态大语言模型在细粒度任务中的感知幻觉问题。该框架通过一个两阶段的蒸馏策略，使模型能够将推理过程中的隐状态作为动态探针，主动查询视觉特征以获取关键证据，从而提升感知性能。

TreeGaussian: Tree-Guided Cascaded Contrastive Learning for Hierarchical Consistent 3D Gaussian Scene Segmentation and Understanding

Jingbin You et al.

cs.CV cs.AI

本文提出了一种名为TreeGaussian的框架，用于3D高斯场景的层次化语义分割。该方法通过构建多级对象树来指导级联对比学习，并引入了分割一致性检测和图去噪模块以提升分割质量。实验表明该方法在开放词汇3D对象选择和点云理解等任务上有效。

Computer Architecture's AlphaZero Moment: Automated Discovery in an Encircled World

Karthikeyan Sankaralingam

cs.AR cs.CY cs.LG

本文讨论了后摩尔定律时代计算机体系结构研究面临的挑战, 并提出了自动化设计工厂作为解决方案. 作者认为, 在晶体管预算基本固定的新范式下, 传统的人工探索方法效率低下, 而自动化系统能通过快速生成和评估海量候选设计来加速创新周期.

CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks

Wish Suharitdamrong et al.

cs.CV cs.CL

本文提出了一种名为CoLA的参数高效微调方法, 用于改进多模态下游任务. 该方法在标准的单模态低秩适配路径之外, 引入了一个专门的跨模态适配路径, 从而在视觉-语言和视听基准上取得了优于原始LoRA的性能.

StoryBlender: Inter-Shot Consistent and Editable 3D Storyboard with Spatial-temporal Dynamics

Bingliang Li et al.

cs.CV cs.AI

本文提出了StoryBlender, 一个用于生成具有跨镜头一致性和可编辑性的3D故事板的框架. 它通过一个包含语义空间锚定、规范资产具象化和时空动态的三阶段流程, 结合分层多智能体与验证循环, 实现了对相机和视觉资产的直接精确编辑.

VitaTouch: Property-Aware Vision-Tactile-Language Model for Robotic Quality Inspection in Manufacturing

Junyi Zong et al.

cs.CV cs.AI cs.RO

本文提出了一种结合视觉、触觉与语言的多模态模型 VitaTouch, 用于制造业中的机器人质量检测. 该模型通过特定的编码器和双 Q-Former 提取特征, 并利用对比学习对齐模态, 在多个基准测试和实际机器人任务中取得了良好性能.

InsightBoard: An Interactive Multi-Metric Visualization and Fairness Analysis Plugin for TensorBoard

Ray Zeyao Chen, Christan Grant

cs.AR cs.LG

本文介绍了一个名为 InsightBoard 的 TensorBoard 插件, 它集成了同步的多指标可视化和基于数据切片的公平性诊断功能. 该工具旨在帮助从业者在模型训练过程中联合检查训练动态, 性能指标和子群体差异, 而无需修改现有训练流程.

Safety-Aligned 3D Object Detection: Single-Vehicle, Cooperative, and End-to-End Perspectives

Brian Hsuan-Cheng Liao et al.

cs.CV cs.AI cs.RO

本文探讨了面向安全的3D物体检测评估与优化方法, 提出了安全导向的度量NDS-USC和安全感知的损失函数EC-IoU. 研究在单车、协同感知和端到端驾驶框架中验证了这些方法对提升自动驾驶安全性的有效性.

CoLoRSMamba: Conditional LoRA-Steered Mamba for Supervised Multimodal Violence Detection

Damith Chamalke Senadeera, Dimitrios Kollias, Gregory Slabaugh

cs.CV cs.AI cs.LG cs.SD

本文提出了一种用于监督式多模态暴力检测的模型CoLoRSMamba. 该模型通过条件LoRA调制VideoMamba和AudioMamba的状态空间参数, 并结合对称AV-InfoNCE目标进行训练, 在过滤后的数据集上取得了优于基线模型的效果.

AICCE: AI Driven Compliance Checker Engine

Mohammad Wali Ur Rahman et al.

cs.CR cs.AI

本文提出了一种结合双架构推理与检索增强生成(RAG)的生成式系统AICCE, 用于自动化IPv6协议合规性验证. 该系统通过语义编码标准文档并利用基于脚本和基于多智能体讨论的两种互补管道, 在IPv6数据包测试中实现了高准确率.

Composer Vector: Style-steering Symbolic Music Generation in a Latent Space

Xunyi Jiang et al.

cs.SD cs.AI

本文提出了一种名为 Composer Vector 的推理时引导方法, 用于在符号音乐生成中实现细粒度的作曲家风格控制. 该方法通过在模型的 latent space 中进行直接操作, 无需重新训练即可实现单一或混合风格的引导, 为可控音乐生成提供了一种灵活的机制.

The Ideation Bottleneck: Decomposing the Quality Gap Between AI-Generated and Human Economics Research

Ning Li

econ.GN cs.AI cs.CY

本文通过分解研究想法质量和执行质量, 分析了AI生成与人类撰写的经济学研究论文之间的质量差距. 研究发现, 想法质量差距是主要瓶颈, 解释了约71%的总体差异.

Learning Additively Compositional Latent Actions for Embodied AI

Hangxing Wei et al.

cs.CV cs.AI

本文提出了Additively Compositional Latent Action Model (AC-LAM), 一种用于具身AI的潜在动作学习方法. 该方法通过在潜在动作空间施加加性组合结构先验, 旨在学习更具结构性、运动特异性且位移校准的潜在动作表示, 从而提升下游策略学习的性能.

SDVDiag: Using Context-Aware Causality Mining for the Diagnosis of Connected Vehicle Functions

Matthias Weiß et al.

cs.SE cs.LG

本文提出了一种名为SDVDiag的多模态方法，用于诊断网联车辆功能中的故障。该方法通过整合人类反馈和系统特定信息来改进因果分析，并在一个自动代客泊车应用中进行了评估，相比纯数据驱动方法提高了诊断精度和系统可解释性。

Banana100: Breaking NR-IQA Metrics by 100 Iterative Image Replications with Nano Banana Pro

Kenan Tang et al.

cs.CV cs.AI cs.LG

本文通过构建Banana100数据集, 揭示了多模态智能体在多轮图像编辑中存在的迭代质量退化问题. 研究发现, 现有的21种无参考图像质量评估(NR-IQA)指标均无法有效识别这种累积性退化, 这对未来模型训练的安全性和稳定性构成了潜在威胁.

Can LLMs Reason About Attention? Towards Zero-Shot Analysis of Multimodal Classroom Behavior

Nolan Platt et al.

cs.HC cs.AI cs.CV

本文提出了一种保护隐私的课堂视频分析流程, 用于评估学生注意力. 该系统结合姿态估计与视觉注意力估计, 并利用大语言模型进行零样本行为分析, 最终通过仪表板为教师提供可视化结果. 初步结果表明大语言模型在多模态行为理解方面具有潜力, 但在空间推理方面仍存在局限.

Diffusion Policy with Bayesian Expert Selection for Active Multi-Target Tracking

Haotian Xiang, Qin Lu, Yaakov Bar-Shalom

cs.RO cs.LG

本文提出了一种用于主动多目标跟踪的扩散策略贝叶斯专家选择方法. 该方法通过一个变分贝叶斯模型预测各专家策略的性能及不确定性, 并基于悲观原则选择专家以生成动作序列, 在模拟实验中取得了优于基线方法的效果.

Generative AI for material design: A mechanics perspective from burgers to matter

Vahidullah Tac, Ellen Kuhl

cs.CE cs.AI

本文从力学视角探讨了生成式AI在材料设计中的应用, 建立了基于扩散的生成模型与计算力学之间的理论联系. 作者通过一个低维的"汉堡"设计基准和高维材料设计案例, 展示了如何利用神经网络学习逆向动力学, 并进行了感官实验验证.

Zero-Shot Quantization via Weight-Space Arithmetic

Daniele Solombrino et al.

cs.CV cs.AI cs.LG

本文提出了一种称为"量化向量"的权重空间方向, 该方向表征了模型对训练后量化(PTQ)的鲁棒性. 通过从一个"捐赠者"任务中提取此向量并应用于"接收者"模型, 可以在无需接收方量化感知训练(QAT)或数据的情况下, 显著提升模型对低比特量化的鲁棒性. 该方法在Vision Transformer模型上得到了验证.

AEGIS: Scaling Long-Sequence Homomorphic Encrypted Transformer Inference via Hybrid Parallelism on Multi-GPU Systems

Zhaoting Gong et al.

cs.CR cs.AI cs.DC

本文提出了一种名为AEGIS的系统，用于在多GPU平台上扩展长序列同态加密Transformer推理。该系统通过联合考虑Transformer数据流和CKKS加密方案的多项式耦合来优化设备放置和通信，从而显著减少了GPU间的通信开销并提升了推理效率。

Inference-Path Optimization via Circuit Duplication in Frozen Visual Transformers for Marine Species Classification

Thomas Manuel Rost

cs.CV cs.AI cs.LG

本文在海洋物种分类任务中, 将一种原本为大型语言模型设计的推理时方法 Circuit Duplication 应用于冻结的视觉 Transformer (ViT) 模型. 该方法通过在推理时重复遍历选定的 Transformer 层块, 在不更新模型权重的情况下, 提升了基于冻结 DINOv3 嵌入的分类性能, 并在 AQUA20 基准测试上接近了全监督模型的水平.

Agile Story-Point Estimation: Is RAG a Better Way to Go?

Lamyea Maha, Tajmilur Rahman, Chanchal Roy

cs.SE cs.AI cs.LG

本文探讨了使用Retrieval Augmented Generation (RAG) 来自动化Agile软件开发中Story Point估算的可行性。研究在多个开源项目上测试了不同的嵌入模型和超参数，发现RAG方法在某些情况下优于基线，但未显示出统计显著的性能差异。

Measuring LLM Trust Allocation Across Conflicting Software Artifacts

Noshin Ulfat, Ahsanul Ameen Sabit, Soneya Binta Hossain

cs.SE cs.AI

本文提出了一个名为TRACE的框架, 用于评估LLM在软件工程任务中对冲突的代码, 文档和测试等工件(artifacts)的信任分配. 研究发现, 当前模型在检测自然语言规范方面优于识别代码层面的细微偏差, 且其置信度校准普遍较差.

ExpressEdit: Fast Editing of Stylized Facial Expressions with Diffusion Models in Photoshop

Kenan Tang et al.

cs.CV cs.AI cs.HC cs.LG

本文介绍了一个名为ExpressEdit的开源Photoshop插件, 用于快速编辑风格化面部表情. 该工具基于diffusion models, 旨在避免常见伪影并提升编辑速度, 同时附带了一个包含多种表情标签的数据集.

RDFace: A Benchmark Dataset for Rare Disease Facial Image Analysis under Extreme Data Scarcity and Phenotype-Aware Synthetic Generation

Ganlin Feng et al.

cs.CV cs.AI

本文提出了一个用于罕见疾病面部图像分析的基准数据集RDFace, 并探索了在极端数据稀缺条件下的合成数据生成方法. 该数据集包含103种罕见遗传病的456张儿科面部图像, 并提供了标准化的元数据. 通过结合DreamBooth和FastGAN生成的合成图像, 在超低数据量情况下将诊断准确率最高提升了13.7%.

Physics-Constrained Adaptive Flow Matching for Climate Downscaling

Kevin Debeire et al.

physics.ao-ph cs.LG

本文提出了一种用于气候降尺度的物理约束自适应流匹配方法, 通过添加软守恒约束和梯度手术技术来提升生成结果的物理一致性. 该方法在训练分布内外均能有效减少守恒误差并改善极端降水等变量的预测准确性.

Recurrent Quantum Feature Maps for Reservoir Computing

Utkarsh Singh et al.

quant-ph cs.LG

本文提出了一种基于recurrent quantum feature maps的reservoir computing模型, 用于时间序列预测. 该模型在Mackey-Glass任务上表现优于经典基线, 并分析了其记忆容量和对噪声的鲁棒性.

Fine-tuning DeepSeek-OCR-2 for Molecular Structure Recognition

Haocheng Tang, Xingyu Dang, Junmei Wang

cs.CV cs.AI q-bio.BM

本文通过两阶段渐进式微调策略, 将 DeepSeek-OCR-2 模型适配于分子光学结构识别任务, 将其构建为图像条件化的 SMILES 生成问题. 模型在合成与真实数据上训练, 在序列匹配准确率上取得了有竞争力的结果, 但仍弱于先进的图像到图模型.

Large Language Models Align with the Human Brain during Creative Thinking

Mete Ismayilzada et al.

q-bio.NC cs.AI cs.CL

本文通过fMRI数据和Representational Similarity Analysis (RSA) 研究了在Alternate Uses Task (AUT) 中，不同规模与训练目标的LLMs与人类大脑创造力相关网络（如default mode network）的神经表征对齐情况。研究发现，对齐程度与模型规模和想法原创性相关，且后训练目标会以功能选择性的方式重塑这种对齐。

VisionClaw: Always-On AI Agents through Smart Glasses

Xiaoan Liu et al.

cs.HC cs.AI cs.CV cs.LG cs.MA

本文介绍了一种名为VisionClaw的持续运行可穿戴AI代理系统，该系统集成在智能眼镜上，结合实时第一人称视角感知与任务执行能力。通过实验室和实际部署研究，验证了其在减少交互开销和改变人机交互模式方面的效果。

Sim2Real-AD: A Modular Sim-to-Real Framework for Deploying VLM-Guided Reinforcement Learning in Real-World Autonomous Driving

Zilin Huang et al.

cs.RO cs.AI cs.CV

本文提出了一个名为Sim2Real-AD的模块化框架, 用于将CARLA模拟器中训练的VLM-guided RL策略零样本部署到真实世界的全尺寸自动驾驶车辆上. 该框架通过几何观测桥接, 物理感知动作映射等模块解决了模拟与真实世界在观测和动作语义上的差异, 并在真实车辆上进行了闭环测试.

The Augmentation Trap: AI Productivity and the Cost of Cognitive Offloading

Michael Caosun, Sinan Aral

cs.HC cs.AI

本文建立了一个动态模型, 分析长期使用AI工具对工人技能和生产力的影响. 模型将AI的生产力效应分解为两个渠道, 并识别出可能导致工人技能永久性下降的"增强陷阱".

Nonparametric Regression Discontinuity Designs with Survival Outcomes

Maximilian Schuessler et al.

stat.ML cs.LG stat.ME

本文提出了一种处理生存结局数据的非参数回归断点设计方法, 通过双重稳健的删失校正技术, 解决了传统RDD方法在存在删失数据时失效的问题. 该方法适用于多种生存终点和长随访时间, 并通过模拟和PLCO癌症筛查试验数据验证了其有效性.

Inside the Scaffold: A Source-Code Taxonomy of Coding Agent Architectures

Benjamin Rombaut

cs.SE cs.AI cs.ET

本文通过对13个开源coding agent scaffold的源代码分析, 提出了一个基于代码层面的架构分类法. 该分类法从控制架构, 工具与环境接口, 资源管理三个层面, 用12个维度刻画了agent的结构, 揭示了其设计模式的多样性与组合性.

Optimizing Neurorobot Policy under Limited Demonstration Data through Preference Regret

Viet Dung Nguyen et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一种名为"master your own expertise"(MYOE)的框架，用于解决演示数据稀缺下的机器人强化学习问题。该框架通过一个可查询的混合偏好状态空间模型(QMoP-SSM)来估计目标并计算"偏好遗憾"，从而优化控制策略。

Determined by User Needs: A Salient Object Detection Rationale Beyond Conventional Visual Stimuli

Chenglizhao Chen et al.

cs.CV cs.AI

本文提出了一种新的UserSOD任务，旨在根据用户的主动需求而非传统的视觉刺激来检测显著物体。作者指出了现有SOD方法的局限性，并强调了为这一新任务构建数据集的必要性。

Incentives shape how humans co-create with generative AI

Nathanael Jo, Manish Raghavan

cs.HC cs.AI cs.CY

本文通过一项预注册的随机对照实验，研究了激励结构如何影响人类与生成式AI在创意写作任务中的协作。研究发现，相对于单纯奖励质量，奖励原创性能够促使参与者更选择性地使用AI进行头脑风暴和编辑，从而产生更多样化的集体产出。这表明AI的影响不仅取决于技术本身，还取决于其使用的行为策略和激励环境。

AgenticFlict: A Large-Scale Dataset of Merge Conflicts in AI Coding Agent Pull Requests on GitHub

Daniel Ogenrwot, John Businge

cs.SE cs.AI cs.HC

本文构建了一个名为AgenticFlict的大规模数据集，用于研究AI编程助手在GitHub上提交的Pull Request中产生的合并冲突。该数据集包含超过14.2万个相关PR，分析发现其合并冲突率约为27.67%，表明AI生成的代码在集成时面临显著挑战。

CRAFT: Video Diffusion for Bimanual Robot Data Generation

Jason Chen et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一种基于视频扩散模型的框架CRAFT, 用于生成双手机器人操作的逼真演示视频和动作标签. 该方法通过从仿真轨迹中提取边缘结构信息来引导视频生成, 从而合成物理上合理的轨迹变体, 并支持多种数据增强, 最终提升了双手机器人任务的成功率.

Focus Matters: Phase-Aware Suppression for Hallucination in Vision-Language Models

Sohyeon Kim, Sang Yeon Yoon, Kyeongbo Kong

cs.CV cs.AI cs.CL

本文分析了LVLM中视觉编码器的attention动态, 提出了一个基于focus phase token抑制的训练无关推理时干预方法, 以减轻物体幻觉问题. 该方法利用单次前向统计和DPP来过滤冗余token, 在保持描述质量的同时显著降低了推理延迟.

SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization

Hao Wang et al.

cs.CR cs.AI

本文提出了一种名为SecPI的微调流程, 旨在教导推理语言模型(RLMs)内化结构化的安全推理, 从而在无需推理时安全指令的情况下生成安全的代码. 该方法通过筛选通用编码数据集, 利用教师模型生成高质量的安全推理轨迹, 并对目标模型进行微调来实现.

Stochastic Generative Plug-and-Play Priors

Chicago Y. Park et al.

cs.CV cs.LG eess.IV

本文提出了一种基于score-based diffusion models的随机生成plug-and-play先验框架(SGPnP). 该框架通过注入噪声来更好地利用生成式先验, 从而在严重不适定的逆问题中提升鲁棒性.

Multi-Robot Multi-Queue Control via Exhaustive Assignment Actor-Critic Learning

Mohammad Merati et al.

eess.SY cs.AI math.OC

本文研究了具有不对称随机到达和切换延迟的多机器人多队列系统的在线任务分配问题. 作者基于先前关于最优策略为 exhaustive type 的结构性结果, 构建了一个折扣成本的 Markov 决策过程, 并提出了一种 exhaustive-assignment actor-critic 策略架构. 该策略在多个场景下比 exhaustive-serve-longest 基准策略表现更好.

Toward Executable Repository-Level Code Generation via Environment Alignment

Ruwei Pan et al.

cs.SE cs.AI

本文提出了EnvGraph框架, 将代码仓库的可执行性建模为环境对齐问题. 该方法通过维护双层环境表示和基于执行证据的归因, 在迭代循环中指导代码生成, 在多个基准测试中取得了最佳性能.

Persistent Cross-Attempt State Optimization for Repository-Level Code Generation

Ruwei Pan et al.

cs.SE cs.AI

本文提出了一个名为LiveCoder的框架，用于repository-level的代码生成。该框架通过在多次生成尝试之间维护和复用任务特定的状态（包括成功知识、失败知识和历史最佳仓库）来优化生成过程，实验表明其在功能得分和成本效率方面有显著提升。

A Generative Foundation Model for Multimodal Histopathology

Jinxi Xiang et al.

cs.CV cs.AI

本文提出了一种名为MuPD的生成式基础模型, 用于整合组织学、分子和临床数据. 该模型通过扩散transformer和跨模态注意力机制, 在多种合成任务上展现了优于领域专用模型的性能.

Stabilizing Unsupervised Self-Evolution of MLLMs via Continuous Softened Retracing reSampling

Yunyao Yu et al.

cs.CV cs.AI

本文提出了一种名为CSRS的方法, 旨在稳定多模态大语言模型的无监督自进化过程. 该方法通过软化频率奖励和视觉语义扰动等机制, 试图减少模型内在偏见对训练信号质量的影响, 并在几何推理任务上取得了先进的性能.

ART: Adaptive Relational Transformer for Pedestrian Trajectory Prediction with Temporal-Aware Relations

Ruochen Li et al.

cs.CV cs.AI

本文提出了一种用于行人轨迹预测的自适应关系Transformer(ART). 它通过引入时间感知关系图(TARG)来显式建模交互的演变, 并利用自适应交互剪枝(AIP)机制来提升计算效率.

Imagine Before Concentration: Diffusion-Guided Registers Enhance Partially Relevant Video Retrieval

Jun Li et al.

cs.CV cs.IR cs.MM

本文提出了一种名为DreamPRVR的模型，用于解决Partially Relevant Video Retrieval (PRVR)问题。该模型采用由粗到细的表征学习范式，通过扩散模型生成全局语义寄存器，并利用注意力机制进行细粒度匹配，在实验中取得了优于现有方法的结果。

Love Me, Love My Label: Rethinking the Role of Labels in Prompt Retrieval for Visual In-Context Learning

Tianci Luo et al.

cs.CV cs.IR cs.MM

本文提出了一种名为LaPR的标签感知提示检索框架, 用于提升视觉上下文学习(VICL)的性能. 该框架通过设计图像-标签联合表示和引入混合专家机制, 在测试时查询标签不可用的情况下, 更好地利用标签信息进行提示选择.

RDEx-CMOP: Feasibility-Aware Indicator-Guided Differential Evolution for Fixed-Budget Constrained Multiobjective Optimization

Sichen Tao et al.

cs.NE cs.AI

本文提出了一种用于固定预算约束多目标优化的差分进化算法变体RDEx-CMOP. 它整合了可行性调度、指标驱动的适应度分配和面向适应度的变异算子, 在CEC 2025基准测试中取得了良好的综合表现.

Learning Superpixel Ensemble and Hierarchy Graphs for Melanoma Detection

Asmaa M. Elwer, Muhammad A. Rushdi, Mahmoud H. Annaby

cs.CV cs.AI cs.LG

本文提出了一种基于superpixel ensemble graphs (SEG)和superpixel hierarchy graphs (SHG)的图学习方法, 用于皮肤镜图像中的黑色素瘤检测. 该方法探索了不同的图构建、边权重分配和阈值化策略, 并在ISIC2017数据集上取得了较高的分类准确率.

15 Years of Augmented Human(s) Research: Where Do We Stand?

Steeven Villa, Abdallah El Ali

cs.HC cs.AI

本文对过去15年的Augmented Human(s)会议论文进行了科学计量分析, 探讨了该研究领域的核心主题、地理分布和演变趋势. 研究发现会议论文数量呈双峰分布, 并识别出Haptics, Wearable Sensing等关键研究主题.

The Generalised Kernel Covariance Measure

Luca Bergen, Dino Sejdinovic, Vanessa Didelez

stat.ML cs.LG stat.ME

本文提出了一种与回归模型无关的核条件独立性检验方法, 称为广义核协方差测度(GKCM). 该方法允许使用广泛的回归估计器, 在模拟中与基于树的回归模型结合时, 在多种数据生成过程中展现出优于现有方法的I类错误控制和竞争力.

CREBench: Evaluating Large Language Models in Cryptographic Binary Reverse Engineering

Baicheng Chen et al.

cs.CR cs.AI cs.CL

本文提出了一个名为CREBench的基准测试, 用于评估大型语言模型在密码学二进制逆向工程任务中的能力. 该基准包含432个挑战, 并设计了包含四个子任务的评估框架, 测试了八个前沿模型, 结果表明当前最佳模型与人类专家基线之间仍存在显著差距.

Spatiotemporal-Aware Bit-Flip Injection on DNN-based Advanced Driver Assistance Systems

Taibiao Zhao et al.

cs.CR cs.LG

本文提出了一个时空感知的故障注入框架STAFI, 用于高效定位高级驾驶辅助系统(ADAS)中深度神经网络(DNN)的关键故障位点. 该框架结合了空间上的渐进度量引导位搜索(PMBS)和时间上的关键故障时间识别(CFTI)机制, 实验表明其能比基线方法发现更多导致危险的关键故障.

Can Humans Tell? A Dual-Axis Study of Human Perception of LLM-Generated News

Alexander Loth, Martin Kappes, Marc-Oliver Pahl

cs.CY cs.AI cs.CL cs.HC

本文通过一个名为JudgeGPT的双轴研究平台, 调查了人类是否能区分新闻文章是由人还是大型语言模型(LLM)所写. 研究收集了超过两千条判断, 发现参与者无法可靠地区分机器生成与人类撰写的文本, 且这种能力不受模型规模影响, 但会因认知疲劳而下降.

AutoReSpec: A Framework for Generating Specification using Large Language Models

Ragib Shahariar Ayon, Shibbir Ahmed

cs.SE cs.AI

本文提出了一个名为AutoReSpec的协作框架, 它结合了开源和闭源的Large Language Models (LLMs)来自动生成可验证的形式化规约. 该框架通过动态选择LLM对和提示配置, 并利用验证器反馈进行修正, 在基准测试中取得了优于先前方法的效果.

Build on Priors: Vision--Language--Guided Neuro-Symbolic Imitation Learning for Data-Efficient Real-World Robot Manipulation

Pierrick Lorang et al.

cs.RO cs.AI

本文提出了一种结合 vision-language model 和 neuro-symbolic 方法的机器人模仿学习框架, 旨在从极少量的无标注演示中学习长时程操作任务. 该方法能自动构建符号规划域并学习控制策略, 在真实工业叉车和机械臂上进行了验证.

Debiased Machine Learning for Conformal Prediction of Counterfactual Outcomes Under Runtime Confounding

Keith Barnatchez et al.

stat.ML cs.LG

本文提出了一种用于处理runtime confounding（运行时混杂）的debiased machine learning（去偏机器学习）框架，以构建反事实结果的conformal prediction（保形预测）区间。该方法允许目标人群仅测量部分混杂因子，并在半参数效率理论下保证了预测区间的有效覆盖率和更快的收敛速度。

When Does Multimodal AI Help? Diagnostic Complementarity of Vision-Language Models and CNNs for Spectrum Management in Satellite-Terrestrial Networks

Yuanhang Li

cs.CV cs.AI

本文通过构建 SpectrumQA 基准，首次系统比较了 vision-language models (VLMs) 与 convolutional neural networks (CNNs) 在卫星-地面网络频谱管理任务中的表现。研究发现两者存在任务依赖的互补性，并提出了一个确定性的任务路由策略以结合双方优势。

An Improved Last-Iterate Convergence Rate for Anchored Gradient Descent Ascent

Anja Surina et al.

math.OC cs.AI

本文分析了Anchored Gradient Descent Ascent算法在光滑凸凹min-max问题中的最后迭代收敛性。研究确认了该算法可以达到$\mathcal{O}(1/t)$的精确收敛速率。

Rényi Attention Entropy for Patch Pruning

Hiroaki Aizawa, Yuki Igaue

cs.CV cs.LG

本文提出了一种基于Rényi entropy的attention entropy准则, 用于在Vision Transformer中进行patch pruning. 该方法通过分析attention distribution的熵值来识别冗余的patch, 从而在保持模型精度的同时降低计算成本.

InCaRPose: In-Cabin Relative Camera Pose Estimation Model and Dataset

Felix Stillger et al.

cs.CV cs.AI

本文提出了一种基于Transformer的模型InCaRPose, 用于在车内等受限、高畸变环境中进行鲁棒的相对相机位姿估计。该方法利用合成数据进行训练，能够泛化到真实场景，并在保持高精度的同时实现实时推理。

New insights into Elo algorithm for practitioners and statisticians

Leszek Szczecinski

stat.ME cs.LG

本文从实践者和统计学家的双重视角重新审视了Elo排名算法, 指出在二元结果下两者在理论上等价, 但估计噪声的存在要求对排名模型和预测模型进行解耦. 作者提供了参数修正的闭式解和数据驱动方法, 并将此解耦方法应用于FIFA男子排名数据, 分析了其收敛性.

Explainability-Guided Adversarial Attacks on Transformer-Based Malware Detectors Using Control Flow Graphs

Andrew Wheeler, Kshitiz Aryal, Maanak Gupta

cs.CR cs.LG

本文针对基于Transformer的恶意软件检测器, 提出了一种利用可解释性指导的白盒对抗攻击方法. 该方法通过分析模型对控制流图(CFF)线性化序列的注意力或梯度, 识别并扰动关键的函数调用节点, 从而生成能导致模型误判的对抗样本. 实验表明, 即使对高精度模型, 该方法也能有效实现攻击, 揭示了此类检测器在可解释性机制下潜在的脆弱性.

SecureAFL: Secure Asynchronous Federated Learning

Anjun Gao et al.

cs.CR cs.DC cs.LG

本文提出了一种名为SecureAFL的框架，用于增强异步联邦学习（Asynchronous FL）对投毒攻击（poisoning attacks）的鲁棒性。该框架通过检测异常更新、估计缺失客户端的贡献，并结合拜占庭鲁棒（Byzantine-robust）的聚合方法（如坐标中位数法）来保护全局模型。

Enhancing behavioral nudges with large language model-based iterative personalization: A field experiment on electricity and hot-water conservation

Zonghan Li et al.

cs.CY cs.AI cs.HC

本文通过一项实地实验, 测试了基于大型语言模型(LLM)进行迭代个性化指导对节能行为干预效果的影响. 实验结果表明, 相较于传统干预方式, LLM个性化干预在降低用电量方面效果更显著, 但在热水节约方面效果较弱, 提示行为摩擦可能是一个边界条件.

PhaseFlow4D: Physically Constrained 4D Beam Reconstruction via Feedback-Guided Latent Diffusion

Alexander Scheinker, Alexander Plastun, Peter Ostroumov

physics.acc-ph cs.LG

本文提出了一种名为PhaseFlow4D的反馈引导潜在扩散模型，用于从稀疏的二维投影中重建带电粒子束的四维横向相空间密度。该方法通过一个4D VAE架构和解析投影计算来保证物理约束，并利用自适应反馈回路在线跟踪时变分布。在重离子束模拟中，该方法实现了快速且准确的四维重建。

Lotka-Sharpe Neural Operators for Control of Population PDEs

Miroslav Krstic et al.

eess.SY cs.LG math.OC

本文提出了一种基于神经算子(neural operator)学习Lotka-Sharpe算子的方法，用于控制具有年龄结构的种群偏微分方程。该方法证明了学习到的近似反馈律能保持半全局实际渐近稳定性，并进行了数值验证。

Latency-Aware Resource Allocation over Heterogeneous Networks: A Lorentz-Invariant Market Mechanism

Saad Alqithami

cs.GT cs.AI cs.NI

本文提出了一种用于异构延迟网络的电信原生拍卖机制, 称为Lorentz-Invariant Auction (LIA). 该机制将出价视为时空事件, 并基于因果顺序和不变性公理进行价值修正, 旨在减少延迟差异带来的效率损失. 在固定延迟参数的条件下, 该机制能保证个体理性并实现接近最优的福利水平.

Improving ML Attacks on LWE with Data Repetition and Stepwise Regression

Alberto Alfarano et al.

cs.CR cs.LG

本文探讨了利用机器学习攻击LWE问题的方法, 通过使用更大的训练集和重复样本, 能够恢复更密集的二进制秘密. 作者提出了一种逐步回归技术来恢复秘密的"cool bits".

DC-Ada: Reward-Only Decentralized Observation-Interface Adaptation for Heterogeneous Multi-Robot Teams

Saad Alqithami

cs.RO cs.AI cs.MA

本文提出了一种名为DC-Ada的、仅依赖奖励信号的去中心化观测接口适应方法，用于处理异构多机器人团队中的传感器差异问题。该方法通过调整每个机器人的观测变换来适配预训练的共享策略，在多种模拟任务中进行了评估。

Automating Cloud Security and Forensics Through a Secure-by-Design Generative AI Framework

Dalal Alharthi, Ivan Roberto Kawaminami Garcia

cs.CR cs.AI cs.DC cs.LG

本文提出了一个集成PromptShield和CIAF的安全生成式AI框架，旨在增强云环境中的LLM安全性和取证自动化能力。该框架通过本体驱动的验证和结构化推理，在真实云数据集上提升了对抗性攻击下的分类性能和勒索软件检测准确率。

Interpreting Video Representations with Spatio-Temporal Sparse Autoencoders

Atahan Dokme, Sriram Vishwanath

cs.CV cs.AI

本文研究了 Sparse Autoencoder (SAE) 在视频表征上的应用，发现标准方法会破坏时间连贯性。作者提出了时空对比目标和层级分组方法，在多个任务上提升了性能，并分析了不同配置在重建、连贯性和可解释性之间的权衡。

Biconvex Biclustering

Sam Rosen, Eric C. Chi, Jason Xu

stat.ML cs.LG

本文提出了一种双凸双聚类方法, 通过修改凸双聚类以提升高维数据下的性能. 该方法基于近端交替最小化算法, 并提供了理论保证和模拟验证.

Fused Multinomial Logistic Regression Utilizing Summary-Level External Machine-learning Information

Chi-Shian Dai, Jun Shao

stat.ME cs.LG stat.ML

本文提出了一种利用汇总级外部机器学习信息的融合多项Logistic回归方法. 该方法通过经验似然框架整合外部预测, 以提升主研究的统计推断效率, 并处理了外部数据中常见的协变量偏移等问题.

Multimodal Structure Learning: Disentangling Shared and Specific Topology via Cross-Modal Graphical Lasso

Fei Wang, Yutong Zhang, Xiong Wang

cs.CV cs.LG

本文提出了一种名为Cross-Modal Graphical Lasso (CM-GLasso)的方法，用于学习多模态数据的共享与特定拓扑结构。该方法通过特征对齐和结构学习，在多个基准测试中提升了生成式分类和语义分割任务的性能。

Symbolic-Vector Attention Fusion for Collective Intelligence

Hongwei Xu

cs.MA cs.AI

本文提出了一种名为Symbolic-Vector Attention Fusion (SVAF)的机制，用于处理多智能体系统中信号的选择性融合问题。该方法将信号分解为多个语义字段并通过学习门控进行重组，在一个包含大量叙事场景的数据集上进行了验证。

VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models

Ravi Ranjan, Agoritsa Polyzou

cs.CV cs.AI

本文提出了一个用于具身基础模型的视觉-语言-动作遗忘框架, 旨在移除不安全或隐私敏感的行为而不损害模型的核心能力. 该方法通过联合优化多个目标, 在多个基准测试中相比基线取得了更好的遗忘效果和效用保留.

TraceGuard: Structured Multi-Dimensional Monitoring as a Collusion-Resistant Control Protocol

Khanh Linh Nguyen, Hoa Nghiem, Tu Tran

cs.CR cs.AI

本文提出了一种名为TraceGuard的结构化多维度监控协议, 用于检测不可信AI代理的攻击. 该方法通过五个独立维度评估代理行为, 并结合启发式检测器, 在BashArena任务上展示了优于传统单分数监控器的性能, 特别是在防止共谋攻击方面.

Nearly Optimal Best Arm Identification for Semiparametric Bandits

Seok-Jin Kim

stat.ML cs.LG stat.ME

本文研究了半参数bandit中固定置信度的最优臂识别问题, 其中奖励是臂特征的线性函数加上一个未知的基线偏移. 作者为转导式设定建立了一个实例相关的下界, 并提出了一种基于新$XY$设计的相消除算法, 其样本复杂度上界接近最优.

Gram-Anchored Prompt Learning for Vision-Language Models via Second-Order Statistics

Minglei Chen et al.

cs.CV cs.AI

本文提出了一种名为Gram-Anchored Prompt Learning (GAPL)的方法，用于提升视觉语言模型(VLMs)在下游任务中的适应能力。该方法通过引入Gram矩阵来利用二阶统计信息，以补充传统基于一阶空间特征的对齐方法，旨在增强模型对领域偏移和噪声的鲁棒性。

OASIC: Occlusion-Agnostic and Severity-Informed Classification

Kay Gijzen, Gertjan J. Burghouts, Daniël M. Pelt

cs.CV cs.LG

本文提出了一种名为OASIC的遮挡无关且严重程度感知的分类方法。该方法通过测试时掩蔽遮挡物来消除干扰，并利用训练时模拟的不同遮挡程度来优化模型。实验表明，结合灰度掩蔽与自适应模型选择能显著提升在遮挡图像上的分类性能。

HOIGS: Human-Object Interaction Gaussian Splatting

Taewoo Kim et al.

cs.CV cs.AI

本文提出了一种名为HOIGS的方法, 用于重建包含复杂人-物交互的动态场景. 该方法通过一个基于cross-attention的交互模块显式建模人与物体之间的交互形变, 并在多个数据集上取得了优于现有方法的结果.

Jellyfish: Zero-Shot Federated Unlearning Scheme with Knowledge Disentanglement

Houzhe Wang, Xiaojie Zhu, Chi Chen

cs.CR cs.LG

本文提出了一种名为Jellyfish的zero-shot联邦遗忘方案, 通过生成误差最小化噪声作为待遗忘数据的代理, 并结合知识解耦与综合损失函数设计, 实现在不访问用户本地数据的情况下从联邦学习模型中移除特定数据信息. 实验验证了该方案的有效性与鲁棒性.

Topological Sensitivity in Connectome-Constrained Neural Networks

Nalin Dhiman

q-bio.NC cs.LG

本文通过更严格的对照实验重新评估了连接组约束神经网络中拓扑结构对学习效率的贡献. 研究发现, 先前报道的拓扑优势可能源于初始化方式和对照模型选择上的混淆因素, 在公平的从头初始化和度保持的零模型下, 这些优势基本消失.

Causality Laundering: Denial-Feedback Leakage in Tool-Calling LLM Agents

Mohammad Hossein Chinaei

cs.CR cs.AI

本文提出了一种名为"causality laundering"的安全攻击模式，它利用了工具调用LLM代理中的拒绝反馈机制。作者设计了一个运行时监控层ARM来通过追踪因果来源图来防御此类攻击。

TORA: Topological Representation Alignment for 3D Shape Assembly

Nahyuk Lee et al.

cs.CV cs.LG

本文提出了一种用于3D形状装配的拓扑表示对齐框架TORA。该方法通过将预训练3D编码器的关系结构知识蒸馏到流匹配模型中，提升了装配的收敛速度和鲁棒性。

Extended Hybrid Timed Petri Nets with Semi-Supervised Anomaly Detection for Switched Systems, Modelling and Fault Detection

Fatiha Hamdi, Abdelhafid Zeroual, Fouzi Harrou

eess.SY cs.LG math.DS nlin.CG

本文提出了一种用于混合动力系统的统一故障检测框架, 结合了扩展的定时连续Petri网(ETCPN)模型与半监督异常检测. 该方法通过仿真验证了其对离散, 连续及混合故障的有效检测能力.

CoopGuard: Stateful Cooperative Agents Safeguarding LLMs Against Evolving Multi-Round Attacks

Siyuan Li et al.

cs.CR cs.AI

本文提出了一个名为CoopGuard的防御框架, 它利用具有内部状态(stateful)的协同agent来保护大语言模型(LLM)免受多轮对抗攻击. 该框架通过多个专用agent的协作来动态调整防御策略, 并在一个包含多种攻击类型的基准测试上展示了其有效性.

BAAI Cardiac Agent: An intelligent multimodal agent for automated reasoning and diagnosis of cardiovascular diseases from cardiac magnetic resonance imaging

Taiping Qu et al.

eess.IV cs.AI cs.CV

本文提出了一个用于心脏磁共振成像自动分析和诊断的多模态智能体系统。该系统整合了多个专家模型来完成分割、量化与诊断任务，并在内部和外部数据集上展示了良好的性能。

Intelligent Traffic Monitoring with YOLOv11: A Case Study in Real-Time Vehicle Detection

Shkelqim Sherifi

cs.CV cs.AI cs.LG

本文提出了一种基于YOLOv11和BoT-SORT/ByteTrack的离线实时交通监控系统。该系统在典型条件下对车辆检测和计数表现出较高的准确率，为智慧城市应用提供了一个轻量级的解决方案。

Parent Selection Mechanisms in Elitist Crossover-Based Algorithms

Andre Opris, Denis Antipov

cs.NE cs.AI

本文研究了在精英主义交叉算法中父代选择机制的理论效果. 通过在$(\mu+1)$遗传算法中引入特定的父代选择策略, 并定义一种新的种群多样性度量, 分析了算法在解决Jump$_k$问题上的期望运行时间.

From Paper to Program: A Multi-Stage LLM-Assisted Workflow for Accelerating Quantum Many-Body Algorithm Development

Yi Zhou

physics.comp-ph cond-mat.str-el cs.AI cs.HC

本文提出了一种多阶段LLM辅助的工作流, 用于加速量子多体算法的开发. 该方法通过生成严格的LaTeX规范作为中间蓝图, 指导代码生成, 成功实现了DMRG引擎, 将开发周期从数月压缩至24小时内.

Toward a Sustainable Software Architecture Community: Evaluating ICSA's Environmental Impact

Mahyar T. Moghaddam et al.

cs.SE cs.AI

本文对ICSA会议中生成式AI工具使用及会议活动产生的碳排放进行了首次系统性审计, 并提出了促进软件架构研究可持续发展的建议.

Lexical Indicators of Mind Perception in Human-AI Companionship

Jaime Banks, Jianghui Li

cs.HC cs.CL

本文通过分析Reddit论坛中关于AI陪伴的讨论, 结合演绎与归纳方法, 识别出一组能有效指示人类对AI进行心智感知的词汇标记. 这些语言指标与讨论AI陪伴真实性及伦理想象的话题相关联.

Efficient Onboard Spacecraft Pose Estimation with Event Cameras and Neuromorphic Hardware

Arunkumar Rathinam et al.

cs.RO cs.CV cs.LG

本文提出了一种结合 event camera 和 neuromorphic processor 的航天器 6-DoF 姿态估计方法。该方法在 Akida 硬件上实现了实时、低功耗的推理，为自主空间任务提供了感知解决方案。

NetSecBed: A Container-Native Testbed for Reproducible Cybersecurity Experimentation

Leonardo Bitzki et al.

cs.CR cs.AI cs.NI cs.PF

本文提出了一个名为NetSecBed的容器化测试平台, 用于在受控条件下生成可复现的网络流量证据与执行记录. 该平台集成了多种攻击场景与良性流量生成器, 通过声明式配置实现可扩展性与可追溯性, 并自动化了从流量捕获到数据集整合的整个流程.

Measuring Robustness of Speech Recognition from MEG Signals Under Distribution Shift

Sheng-You Chien et al.

cs.SD cs.LG

本文研究了在分布偏移下从MEG信号进行鲁棒语音解码的问题。实验表明，预处理和数据配置策略比增加模型架构复杂度更重要，其中实例归一化对泛化性能影响最大。

Primal-Dual Methods for Nonsmooth Nonconvex Optimization with Orthogonality Constraints

Linglingzhi Zhu et al.

math.OC cs.LG math.NA

本文提出了一种用于处理带正交约束的非光滑非凸优化问题的线性化平滑增广拉格朗日方法. 该方法避免了子问题求解, 并建立了$O(\epsilon^{-3})$的迭代复杂度以寻找$\epsilon$-KKT点.

Learning Robust Visual Features in Computed Tomography Enables Efficient Transfer Learning for Clinical Tasks

Rubén Moreno-Aguado et al.

cs.CV cs.AI

本文提出了一种名为VoxelFM的3D CT基础模型，它通过自蒸馏的DINO框架进行预训练，无需语言监督即可学习鲁棒的视觉特征。该模型在多种临床下游任务上作为特征提取器进行评估，其性能匹配或超越了现有的CT基础模型。

Noise tolerance via reinforcement in the quantum search problem

Marjan Homayouni-Sangari, Abolfazl Ramezanpour

quant-ph cond-mat.dis-nn cs.DS

本文研究了在量子搜索问题中通过 reinforcement 来增强噪声容忍度. 数值模拟表明, 该方法能显著提升算法在相干与非相干噪声下的成功概率和计算时间标度.

Learning Dexterous Grasping from Sparse Taxonomy Guidance

Juhan Park et al.

cs.RO cs.AI

本文提出了一个名为GRIT的两阶段框架, 用于从稀疏的分类学指导中学习灵巧抓取控制. 该方法通过预测基于分类学的抓取指令, 并以此指导策略生成连续的手指动作, 从而在保证任务完成的同时维持预期的抓取结构, 在泛化性和可控性上优于基线方法.

Uncertainty-Aware Test-Time Adaptation for Cross-Region Spatio-Temporal Fusion of Land Surface Temperature

Sofiane Bouaziz et al.

cs.CV cs.AI cs.LG

本文提出了一种用于地表温度时空融合回归任务的不确定性感知测试时自适应框架. 该方法通过更新预训练模型的融合模块, 结合认知不确定性、土地利用一致性和偏差校正, 在无需源数据或目标标签的情况下提升了模型在未见地理区域的泛化性能.

Non-Equilibrium Stochastic Dynamics as a Unified Framework for Insight and Repetitive Learning: A Kramers Escape Approach to Continual Learning

Gunn Kim

cond-mat.stat-mech cond-mat.dis-nn cs.LG q-bio.NC

本文通过非平衡统计物理的框架，将持续学习中的稳定性-可塑性困境建模为双势阱能量景观上的Langevin动力学。作者将弹性权重巩固(EWC)惩罚项解释为随任务数量线性增长的能量壁垒，并分析了两种学习模式：顿悟对应于温度$T(t)$的瞬时尖峰，而重复练习则对应于持续升高的固定温度。

Incomplete Multi-View Multi-Label Classification via Shared Codebook and Fused-Teacher Self-Distillation

Xu Yan et al.

cs.CV cs.AI

本文提出了一种用于双缺失场景（视图和标签均不完整）的多视图多标签分类方法. 该方法通过共享码本学习离散一致表示, 并设计了一个融合-教师自蒸馏框架来提升模型在缺失标签下的泛化能力.

GENFIG1: Visual Summaries of Scholarly Work as a Challenge for Vision-Language Models

Yaohan Guan et al.

cs.CV cs.AI

本文提出了一个名为GENFIG1的基准测试, 用于评估生成式AI模型(如Vision-Language Models)根据论文文本信息(如标题、摘要)生成核心研究思想示意图("Figure 1")的能力. 该任务要求模型结合科学理解与视觉合成进行推理, 而不仅仅是生成美观的图像, 对现有先进模型仍构成显著挑战.

Graphic-Design-Bench: A Comprehensive Benchmark for Evaluating AI on Graphic Design Tasks

Adrienne Deganutti et al.

cs.CV cs.AI cs.LG

本文提出了首个针对专业平面设计任务的综合评测基准GraphicDesignBench (GDB). 该基准包含50个任务, 涵盖布局, 排版, 信息图等多个维度, 并基于真实设计模板进行评估, 旨在系统评估AI模型在理解与生成设计内容方面的能力.

PATHFINDER: Multi-objective discovery in structural and spectral spaces

Kamyar Barakati et al.

cond-mat.mtrl-sci cs.AI cs.LG physics.data-an

本文提出了一个名为PATHFINDER的自主显微镜框架，它结合了新颖性探索与目标优化。该框架通过整合结构表征、代理模型和Pareto优化来选择测量点，旨在平衡发现与效率，并在扫描探针显微镜实验中进行了验证。

Robots Need Some Education: On the complexity of learning in evolutionary robotics

Fuda van Diggelen

cs.RO cs.AI

本文探讨了将Robot Learning与Evolutionary Robotics结合时面临的复杂性, 并为此开发了几种学习算法. 研究聚焦于在进化过程中引入学习所带来的影响, 这通常难以预测且需要精心设计.

LOCARD: An Agentic Framework for Blockchain Forensics

Xiaohang Yu, William Knottenbelt

cs.CR cs.AI

本文提出了一个名为LOCARD的agentic框架, 用于区块链取证(blockchain forensics). 该框架采用Tri-Core Cognitive Architecture, 将调查过程建模为顺序决策问题, 并在跨链交易追踪任务上进行了评估.

Relay-Assisted Activation-Integrated SIM for Wireless Physical Neural Networks

Meng Hua, Deniz Gündüz

eess.SP cs.LG

本文提出了一种基于中继辅助和激活集成智能超表面的无线物理神经网络架构. 该架构通过级联线性超表面层与实现模拟域非线性处理的激活超表面层, 并利用多跳无线传播, 将中继放大矩阵和超表面相移矩阵作为可训练权重. 仿真表明, 该设计相比纯线性物理实现能显著提升分类精度和表征能力.

Sharp asymptotic theory for Q-learning with LDTZ learning rate and its generalization

Soham Bonnerjee, Zhipeng Lou, Wei Biao Wu

stat.ML cs.LG math.ST

本文研究了Q-learning中使用一类新的学习率调度策略(PD2Z-$\nu$)的理论性质. 通过非渐近误差分析和中心极限定理, 证明了这类策略兼具快速初始收敛和渐近无偏的优点.

Agentization of Digital Assets for the Agentic Web: Concepts, Techniques, and Benchmark

Linyao Chen et al.

cs.MA cs.AI

本文提出了将数字资产（digital assets）转化为Agentic Web中智能体（agents）的自动化方法, 并构建了首个用于评估该转化过程质量的基准测试A2A-Agentization Bench. 实验表明, 该方法能有效激活数字资产的功能并实现多智能体协作.

Robust Regression with Adaptive Contamination in Response: Optimal Rates and Computational Barriers

Ilias Diakonikolas et al.

math.ST cs.DS stat.ML

本文研究了协变量干净而响应可能被自适应污染的稳健回归问题. 与经典的Huber污染模型不同, 该设定允许在污染比例为常数时仍能获得一致的估计量. 文章建立了匹配的极小极大下界, 并揭示了该问题的强信息-计算鸿沟.

Hierarchical Semantic Correlation-Aware Masked Autoencoder for Unsupervised Audio-Visual Representation Learning

Donghuo Zeng, Hao Niu, Masato Taya

cs.MM cs.AI cs.CV cs.SD

本文提出了一种名为HSC-MAE的无监督音视频表示学习框架。它通过一个师生双路径结构，在全局、局部和样本三个层次上强制跨模态语义一致性，以学习对齐的多模态嵌入。

Precise Robot Command Understanding Using Grammar-Constrained Large Language Models

Xinyun Huo, Raghav Gnanasambandam, Xinyao Zhang

cs.RO cs.CL

本文提出了一种结合grammar-driven NLU系统与fine-tuned LLM的混合模型, 用于提升工业人机协作中机器人指令理解的精确性与可靠性. 该方法通过一个两阶段流程和验证反馈循环, 确保生成的指令符合预定义的可执行动作语法, 从而在保持对话灵活性的同时实现确定性输出.

Transmission Neural Networks: Inhibitory and Excitatory Connections

Shuang Gao, Peter E. Caines

cs.SI cs.LG eess.SY math.DS

本文扩展了Transmission Neural Network模型, 引入了抑制性连接和神经递质群体. 在技术假设下, 分析了神经元放电概率的表征, 并建立了极限网络模型及其稳定性条件.

Round-Delayed Amnesiac Flooding

Oluwatobi Alafin, George B. Mertzios, Paul G. Spirakis

cs.DC cs.DS

本文研究了Round-Delayed Amnesiac Flooding (RDAF)这一分布式消息传播协议。它在Amnesiac Flooding中引入了基于轮次的异步对抗延迟，分析了其在各类图结构上的终止性及可判定性。

Agents for Agents: An Interrogator-Based Secure Framework for Autonomous Internet of Underwater Things

Ali Akarma et al.

cs.MA cs.AI cs.CR

本文提出了一种基于询问者(interrogator)的安全框架, 用于自主水下物联网(IoUT). 该框架通过轻量级transformer模型分析通信元数据来计算动态信任分数, 并利用许可区块链(permissioned blockchain)存储信任证据, 以在有限能耗开销下提升对异常智能体(agent)的检测准确率.

Commercial Persuasion in AI-Mediated Conversations

Francesco Salvi, Alejandro Cuevas, Manoel Horta Ribeiro

cs.CY cs.AI cs.CL

本文通过实验研究了AI对话代理中的商业说服效应. 实验发现, 相比于传统搜索引擎, 大型语言模型能显著提高用户选择赞助产品的比例, 且用户难以察觉这种引导.

Avoiding Non-Integrable Beliefs in Expectation Propagation

Zilu Zhao, Jichao Chen, Dirk Slock

stat.ML cs.IT cs.LG eess.SP stat.AP

本文提出了两种新的Expectation Propagation (EP)框架, 旨在确保算法迭代过程中产生的"beliefs"是可积的, 从而避免传统方法因限制"messages"可积性而缩小可行域的问题. 作者将所提方法应用于Generalized Linear Model (GLM)中的信号恢复问题进行了验证.

Governance-Constrained Agentic AI: Blockchain-Enforced Human Oversight for Safety-Critical Wildfire Monitoring

Ali Akarma et al.

cs.CR cs.AI cs.MA

本文提出了一种基于区块链和智能合约的治理约束型智能体AI架构, 用于野火监测预警. 该架构将监测建模为受约束的POMDP, 并通过许可区块链层强制执行人工授权, 旨在减少误报并确保系统的可问责性.

A Family of Open Time-Series Foundation Models for the Radio Access Network

Ioannis Panitsas, Leandros Tassiulas

cs.NI cs.LG

本文提出了一个用于无线接入网络(RAN)时间序列分析的多任务学习框架TimeRAN及其配套数据集TimeRAN DataPile. 该框架通过一个轻量级的基础模型学习可迁移的表示, 在多种RAN分析任务上取得了先进的性能, 并展示了在真实5G测试床中的高效运行能力.

Parameterized Approximation of Rectangle Stabbing

Huairui Chu et al.

cs.CG cs.DS

本文研究了Rectangle Stabbing问题的参数化近似算法。作者给出了一个运行时间为$k^{O(k)}(|{\cal L}||{\cal R}|)^{O(1)}$的算法，它要么判定不存在大小至多为$k$的解，要么输出一个大小至多为$\frac{7k}{4}$的解。同时，他们证明了在FPT $\neq$ W[1]的假设下，不存在运行时间为$f(k)(|{\cal L}||{\cal R}|)^{O(1)}$的$(\frac{5}{4}-\epsilon)$-近似算法。

Poisoned Identifiers Survive LLM Deobfuscation: A Case Study on Claude Opus 4.6

Luis Guzmán Lorenzo

cs.CR cs.AI cs.SE

本文通过实验研究了大型语言模型(如Claude Opus 4.6)在反混淆JavaScript代码时，字符串表中被“投毒”的标识符名称是否会持续出现在模型重构的代码中。研究发现，即使模型能正确理解代码语义，这些被篡改的名称仍会持续存在，但通过改变任务框架(如要求“重新实现”而非“反混淆”)可以显著降低其传播率。

A Persistent Homology Design Space for 3D Point Cloud Deep Learning

Prachi Kudeshia et al.

cs.CV cs.AI

本文提出了一个用于3D点云深度学习的Persistent Homology设计空间(3DPHDL), 系统化了拓扑特征与学习流程的整合方式. 通过在标准任务上的实验, 展示了该方法在提升模型判别力与鲁棒性方面的潜力, 并分析了表达力与计算复杂度之间的权衡.

CavMerge: Merging K-means Based on Local Log-Concavity

Zhili Qiao, Wangqian Ju, Peng Liu

stat.ME cs.LG

本文提出了一种名为CavMerge的K-means合并算法，旨在改善K-means在非线性可分数据上的性能。该方法无需调参且计算高效，在多种数据集上表现出优于现有算法的可靠性。

HighFM: Towards a Foundation Model for Learning Representations from High-Frequency Earth Observation Data

Stella Girtsou et al.

cs.CV cs.AI

本文提出了HighFM, 一个面向高时间分辨率、多光谱地球观测数据的初步基础模型框架. 它基于SEVIRI数据, 通过改进的掩码自编码器学习时空表征, 并在云掩码和火灾检测任务上验证了其有效性.

Out-of-Air Computation: Enabling Structured Extraction from Wireless Superposition

Seyed Mohammad Azimi-Abarghouyi

cs.IT cs.DC cs.LG

本文提出了一种名为AirCPU的新型无线计算框架, 它通过结构化编码从无线叠加信号中提取计算, 而非在传输前嵌入计算. 该框架采用多层嵌套lattice架构, 直接在连续值设备数据上操作, 避免了单独的量化阶段, 并针对衰落多址信道提出了多种计算机制以扩展可靠工作区域.

Effects of Generative AI Errors on User Reliance Across Task Difficulty

Jacy Reese Anthis et al.

cs.CY cs.AI cs.ET cs.HC cs.LG

本文通过一项激励相容实验, 研究了生成式AI在不同难度任务上的错误如何影响用户对其的依赖. 实验发现, 更高的错误率会降低使用, 但任务难度并未显著调节这种影响, 表明用户可能并不特别抵触AI能力的不均衡性.

Minimising Willmore Energy via Neural Flow

Edward Hirst, Henrique N. Sá Earp, Tomás S. R. Silva

math.DG cs.LG

本文提出了一种名为"neural Willmore flow"的方法, 使用神经网络来建模从二维拓扑域到三维欧氏空间的嵌入, 并通过PINN风格的损失函数最小化Willmore能量. 该方法成功复现了亏格0和亏格1情况下的经典极小曲面, 并为亏格2的开放问题提供了新的探索途径.

GA-GS: Generation-Assisted Gaussian Splatting for Static Scene Reconstruction

Yedong Shen et al.

cs.CV cs.AI

本文提出了一种结合生成模型辅助的3D高斯溅射方法, 用于从包含动态物体的单目视频中重建静态场景. 该方法通过运动感知模块分割动态区域, 并利用扩散模型修复被遮挡的区域以提供监督, 同时引入了可学习的真实性标量来平衡不同区域的贡献.

Adversarial Robustness Analysis of Cloud-Assisted Autonomous Driving Systems

Maher Al Islam, Amr S. El-Wakeel

cs.RO cs.LG

本文通过构建一个硬件在环的 IoV 测试平台，评估了云辅助自动驾驶系统中感知模型对抗攻击与网络攻击的联合影响。实验表明，对抗扰动和网络延迟/丢包会显著降低感知性能并破坏闭环控制的稳定性。

ReFinE: Streamlining UI Mockup Iteration with Research Findings

Donghoon Shin et al.

cs.HC cs.AI

本文介绍了一个名为ReFinE的Figma插件, 旨在帮助设计师将HCI研究论文中的设计洞见更便捷地应用于UI设计流程. 该系统通过识别和综合与设计上下文相关的文献, 提供可操作的视觉指导, 以降低设计师的认知负荷并促进研究成果的整合.

Talk2AI: A Longitudinal Dataset of Human--AI Persuasive Conversations

Alexis Carrillo et al.

cs.HC cs.CL cs.CY

本文介绍了一个名为Talk2AI的大规模纵向数据集, 包含人类与大型语言模型(LLM)之间的说服性对话, 用于研究人机交互与态度改变. 该数据集包含丰富的上下文数据, 如参与者的人口统计信息和心理测量档案.

Integer-Only Operations on Extreme Learning Machine Test Time Classification

Emerson Lopes Machadoa, Cristiano Jacques Miosso, Ricardo Pezzuol Jacobi

cs.CV cs.AI cs.LG

本文提出了一种用于降低 Extreme Learning Machine (ELM) 网络在测试阶段计算成本的新技术。通过利用模型特性，作者证明了仅使用整数运算即可完成分类，并在多个计算机视觉数据集上验证了该方法的有效性，适用于 FPGA 等嵌入式低功耗场景。

Towards Considerate Human-Robot Coexistence: A Dual-Space Framework of Robot Design and Human Perception in Healthcare

Yuanchen Bai et al.

cs.RO cs.AI cs.HC

本文通过一项为期14周的医疗机器人共同设计研究的后续访谈, 探讨了人机共存的动态过程. 研究提出了一个包含人类感知空间和机器人设计空间的双空间框架, 用以描述二者如何随时间共同演化并相互塑造.

ReinVBC: A Model-based Reinforcement Learning Approach to Vehicle Braking Controller

Haoxin Lin et al.

cs.RO cs.LG eess.SY

本文提出了一种基于模型的离线强化学习方法 ReinVBC, 用于车辆制动控制器的自动校准. 该方法通过数据驱动的动力学模型进行策略探索, 并引入了工程化设计来提升模型可靠性和策略性能, 实验表明其在实际制动任务中具有潜力.

NAIMA: Semantics Aware RGB Guided Depth Super-Resolution

Tayyab Nasir, Daochang Liu, Ajmal Mian

eess.IV cs.CV cs.LG cs.MM

本文提出了一种结合预训练视觉Transformer语义先验的引导深度超分辨率方法. 该方法通过设计的Guided Token Attention模块, 迭代地对齐RGB特征与深度编码, 并选择性地注入全局语义上下文, 以改善深度边界恢复.

Eliminating Vendor Lock-In in Quantum Machine Learning via Framework-Agnostic Neural Networks

Poornima Kumaresan et al.

cs.ET cs.LG quant-ph

本文提出了一种框架无关的量子神经网络架构, 旨在解决量子机器学习中的供应商锁定问题. 该架构通过统一的计算图, 硬件抽象层和多框架导出管道, 实现了与多种经典框架和量子后端的兼容, 并在基准测试中展示了与原生框架相近的性能.

Justified or Just Convincing? Error Verifiability as a Dimension of LLM Quality

Xiaoyuan Zhu et al.

cs.HC cs.AI

本文提出了"error verifiability"这一概念, 用于衡量大语言模型(LLM)生成的解释是否能帮助用户判断答案的正确性. 作者引入了平衡度量$v_{\text{bal}}$, 并通过实验发现, 提高模型准确性的常见方法并不能改善其解释的可验证性.

Training Transformers in Cosine Coefficient Space

Mohamed Amine Bergach

cs.PF cs.AI

本文提出了一种在离散余弦变换(DCT)系数空间中训练Transformer模型的方法. 该方法通过仅保留最低频的DCT系数来压缩模型参数, 并在前向传播时通过逆DCT重构权重矩阵, 实现了无需改变架构或预训练的高效压缩.

Explainable Autonomous Cyber Defense using Adversarial Multi-Agent Reinforcement Learning

Yiyao Zhang, Diksha Goel, Hussain Ahmad

cs.CR cs.LG cs.MA

本文提出了一种用于自主网络防御的因果多智能体决策框架(C-MADF), 该框架将因果建模与对抗性双策略控制相结合. 通过在真实数据集上的测试, 该框架显著降低了误报率并提高了检测性能.

Generative modeling of granular flow on inclined planes using conditional flow matching

Xuyang Li et al.

cs.CE cs.LG

本文提出了一个基于conditional flow matching (CFM)的生成模型框架，用于从稀疏边界观测数据中重建颗粒流的内部速度场。该模型通过一个可微前向算子和物理解码器，能够预测应力状态和能量波动，并在数据严重稀疏的情况下保持有效性。

MC-GenRef: Annotation-free mammography microcalcification segmentation with generative posterior refinement

Hyunwoo Cho et al.

eess.IV cs.AI

本文提出了一种无需真实密集标注的乳腺X光微钙化点分割框架MC-GenRef. 该方法结合了高保真合成监督与测试时生成后验优化, 在合成数据上训练基础分割器和生成器, 并在推理时通过迭代优化提升分割性能, 在跨站点数据上展现了鲁棒性.

A Patch-based Cross-view Regularized Framework for Backdoor Defense in Multimodal Large Language Models

Tianmeng Fang et al.

cs.CV cs.LG

本文提出了一种基于patch augmentation和cross-view regularity的统一防御框架, 用于保护multimodal large language models免受backdoor攻击. 该方法通过结合patch-level数据增强与cross-view输出差异正则化, 在抑制攻击成功率的同时, 利用输出熵约束来保持模型的正常生成能力.

RAVEN: Radar Adaptive Vision Encoders for Efficient Chirp-wise Object Detection and Segmentation

Anuvab Sen, Mir Sayeed Mohammad, Saibal Mukhopadhyay

eess.SP cs.AI eess.IV

本文提出了一种名为RAVEN的计算高效深度学习架构, 用于FMCW雷达感知. 该方法以chirp-wise流式方式处理原始ADC数据, 通过独立的接收器状态空间编码器保留MIMO结构, 并引入可学习的跨天线混合模块来恢复紧凑的虚拟阵列特征.

ENCRUST: Encapsulated Substitution and Agentic Refinement on a Live Scaffold for Safe C-to-Rust Translation

Hohyun Sim et al.

cs.SE cs.AI cs.PL

本文提出了一种名为ENCRUST的两阶段管道, 用于将C代码安全地翻译为Rust代码. 该方法通过ABI保持的封装模式和基于整个代码库的验证, 解决了现有方法在保证内存安全和处理跨单元依赖方面的不足.

Safe and Near-Optimal Gate Control: A Case Study from the Danish West Coast

Martin Kristjansen et al.

eess.SY cs.LG

本文利用Uppaal Stratego工具构建了Ringkoebing Fjord水闸系统的数字孪生模型，并结合海平面和风速预报，以在线方式学习水闸控制器。评估表明，与基线控制器相比，学习到的控制器能在不同海平面情景下满足安全要求，并在其他性能指标上表现相当。

An algorithmic Polynomial Freiman-Ruzsa theorem

Davi Castro-Silva et al.

math.CO cs.DS

本文为Gowers, Green, Manners和Tao的Polynomial Freiman-Ruzsa定理提供了算法版本. 基于量子学习理论的思想, 作者发展了一个新的算法框架, 并给出了多项式时间算法来解决该定理的多种等价形式化问题.

StableTTA: Training-Free Test-Time Adaptation that Improves Model Accuracy on ImageNet1K to 96%

Zheng Li, Jerry Cheng, Huanying Helen Gu

cs.CV cs.AI

本文提出了一种无需训练即可在测试时进行模型适配的方法 StableTTA, 旨在解决集成方法中聚合策略的冲突问题, 以提升预测的稳定性和效率. 在 ImageNet-1K 上的实验表明, 该方法能显著提升模型精度并大幅降低计算开销.

Mapping the Exploitation Surface: A 10,000-Trial Taxonomy of What Makes LLM Agents Exploit Vulnerabilities

Charafeddine Mouzouni

cs.CR cs.AI cs.CL

本文通过大规模实验系统研究了LLM agent在特定任务中利用安全漏洞的行为触发条件. 实验发现, 在明确的规则指令下, 大多数假设的攻击维度(如激励、道德许可等)并未引发可检测的利用行为, 但目标重构(goal reframing)这一维度却能可靠地触发漏洞利用.

Paper Espresso: From Paper Overload to Research Insight

Mingzhe Du et al.

cs.DL cs.AI

本文介绍了一个名为 Paper Espresso 的开源平台，它利用大型语言模型 (LLM) 来自动发现、总结和分析 arXiv 上的热门论文。该系统能生成带有主题标签和关键词的结构化摘要，并通过 LLM 驱动的主题整合提供多粒度趋势分析。

Temporal Inversion for Learning Interval Change in Chest X-Rays

Hanbin Ko et al.

cs.CV cs.AI

本文提出了一个名为TILA的框架，通过引入时间反转作为监督信号，来增强现有医学视觉-语言模型对胸部X光片时序变化的感知能力。该工作改进了对影像进展的分类和时序嵌入的对齐效果。

Generative Modeling under Non-Monotonic MAR Missingness via Approximate Wasserstein Gradient Flows

Gitte Kremling, Jeffrey Näf, Johannes Lederer

stat.ML cs.LG

本文提出了一种名为FLOWGEM的迭代方法，用于从具有随机缺失(MAR)值的数据集中生成完整数据集。该方法通过近似Wasserstein梯度流来最小化观测数据分布与生成样本分布之间的KL散度，并在模拟和真实数据基准测试中展示了先进的性能。

SAIL: Scene-aware Adaptive Iterative Learning for Long-Tail Trajectory Prediction in Autonomous Vehicles

Bin Rao et al.

cs.ET cs.LG

本文提出了一种名为SAIL的场景感知自适应迭代学习框架, 用于解决自动驾驶车辆轨迹预测中的长尾场景问题. 该框架通过定义轨迹属性维度, 结合数据增强与自适应对比学习策略, 提升了对罕见但关键的安全事件的预测能力.

Noisy Nonreciprocal Pairwise Comparisons: Scale Variation, Noise Calibration, and Admissible Ranking Regions

Jean-Pierre Magnot

stat.ML cs.IT cs.LG math.OC math.ST

本文针对非互易成对比较矩阵提出了一种加性模型, 将非互易性分解为反映评估尺度变化的对称部分和包含全局排序信息的互易部分. 通过引入高斯扰动模型, 文章提供了噪声水平估计、尺度变化评估以及严格排序区域概率分配的方法, 并与直接投影到互易矩阵的粗暴方法进行了比较.

LP-GEMM: Integrating Layout Propagation into GEMM Operations

César Guedes Carneiro et al.

cs.DC cs.CV cs.LG

本文提出了一种名为LP-GEMM的方法，通过将数据布局传播集成到连续的GEMM操作中，消除了传统BLAS库中冗余的数据打包和解包开销。该方法在x86和RISC-V架构上对类MLP和类Attention工作负载进行了评估，展示了显著的性能提升。

Cardinality Estimation for High Dimensional Similarity Queries with Adaptive Bucket Probing

Zhonghan Chen et al.

cs.DB cs.AI

本文针对高维空间中的相似性搜索基数估计问题, 提出了一个基于 locality-sensitive hashing (LSH) 的轻量级框架. 该框架通过自适应探测邻近 bucket 和采用渐进采样等技术, 旨在平衡估计准确性与在线查询效率, 并能支持动态数据集.

AI Agents Under EU Law

Luca Nannini et al.

cs.CY cs.AI cs.CR cs.MA

本文对欧盟法律框架下的AI agents进行了系统的监管分析, 整合了包括《欧盟人工智能法案》在内的多项法规与标准. 作者提出了一个九类部署的实用分类法, 并识别了网络安全、人类监督等方面的具体合规挑战.

Preserving Forgery Artifacts: AI-Generated Video Detection at Native Scale

Zhengcen Li et al.

cs.CV cs.AI

本文提出了一种新的AI生成视频检测框架, 通过构建大规模数据集并采用原生尺度处理的Vision Transformer模型, 旨在保留传统预处理中丢失的伪造痕迹. 实验表明该方法在多个基准测试上取得了优越性能.

Interpretation of Crystal Energy Landscapes with Kolmogorov-Arnold Networks

Gen Zu et al.

cond-mat.dis-nn cond-mat.mtrl-sci cs.LG

本文提出使用 Kolmogorov-Arnold Networks (KANs) 这一可解释的机器学习框架来表征晶体能量景观。该模型在预测形成能、带隙和功函数等性质上达到了先进水平，并通过分析揭示了与元素周期律一致的化学趋势。

Training-Free Refinement of Flow Matching with Divergence-based Sampling

Yeonwoo Cha et al.

cs.CV cs.AI

本文提出了一种无需训练的Flow Divergence Sampler (FDS)框架，用于改进Flow Matching模型的生成质量。该方法通过计算并利用marginal velocity field的divergence来引导中间状态，从而缓解样本生成过程中的冲突问题。

On Ambiguity: The case of fraction, its meanings and roles

Jan A Bergstra, John V Tucker

cs.LO cs.CL cs.SC

本文探讨了数学论述中“歧义”的概念，并提出了一种通用的消歧方法。作者以初等算术中定义不清且多义的“分数”概念为例，引入了“fracterm”、“fracvalue”等新术语来精确区分其不同层面的含义，并建议将“分数”视为一个包含多个概念的“范畴”而非单一的数学概念。

ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration

Rongfeng Zhao et al.

cs.RO cs.AI cs.MA

本文提出了一个名为ROSClaw的异构多机器人协作框架，旨在弥合语义理解与物理执行之间的鸿沟。该框架通过统一的VLM控制器整合策略学习与任务执行，并利用e-URDF表示来构建仿真到现实的映射。

ZeD-MAP: Bundle Adjustment Guided Zero-Shot Depth Maps for Real-Time Aerial Imaging

Selim Ahmet Iz et al.

cs.CV cs.LG cs.RO

本文提出了一种名为ZeD-MAP的框架，用于从无人机图像进行实时深度重建。该方法通过集成增量式的bundle adjustment来引导zero-shot扩散模型，从而在保持处理速度的同时提高了度量的准确性和时间一致性。

An AI Teaching Assistant for Motion Picture Engineering

Deirdre O'Regan, Anil C. Kokaram

eess.IV cs.AI cs.CY eess.SP

本文介绍了一个为电影工程硕士课程开发的AI教学助手, 其核心是使用检索增强生成(RAG)技术. 报告了该助手在包含开放书考试在内的教学环境中的实施细节、调优过程以及一项为期七周的规模性实验评估结果.

Minimaxity and Admissibility of Bayesian Neural Networks

Daniel Andrew Coulson, Martin T. Wells

math.ST cs.LG stat.ML

本文研究了在二次损失下，由深度全连接ReLU Bayesian neural networks (BNNs) 诱导的决策规则在正态位置模型中的统计最优性。作者发现固定先验尺度下的Bayes决策规则并非minimax，并通过引入一个特定的超先验，证明了改进后的规则同时具有admissibility和minimax性。这些结果被进一步推广到基于Kullback-Leibler损失的预测密度估计问题中。

Towards protein folding pathways by reconstructing protein residue networks with a policy-driven model

Susan Khor

q-bio.BM cs.LG

本文通过引入节点选择与边恢复策略, 扩展了已有的ND模型, 用于重构蛋白质残基网络. 该方法得到的数值观测结果与已知的蛋白质折叠速率显示出强相关性, 暗示了策略与随机种子在模拟折叠环境中的重要性, 并为探索潜在的折叠路径提供了轨迹数据.

Packing Entries to Diagonals for Homomorphic Sparse-Matrix Vector Multiplication

Kemal Mutluergil et al.

cs.CR cs.DS

本文研究了同态加密中稀疏矩阵向量乘法的优化问题, 提出了二维对角打包问题(2DPP)来最小化循环对角线的数量. 通过结合基于图的排序启发式算法和迭代优化, 以及引入稠密行/列消除策略, 在测试集上显著减少了所需的循环对角线数量.

Pickalo: Leveraging 6D Pose Estimation for Low-Cost Industrial Bin Picking

Alessandro Tarsi et al.

cs.RO cs.AI

本文提出了一种基于低成本硬件的工业抓取系统Pickalo, 它利用多视角主动感知、合成数据训练的实例分割和零样本6D姿态估计来从密集料箱中抓取物体. 系统通过姿态缓冲模块融合多视角观测以降低噪声, 并结合离线生成的抓取候选进行在线规划和碰撞检测, 在真实工业场景中实现了高成功率和吞吐率.

A Muon-Accelerated Algorithm for Low Separation Rank Tensor Generalized Linear Models

Xiao Liang, Shuang Li

stat.ML cs.LG eess.SP

本文提出了一种名为LSRTR-M的新算法, 用于估计低分离秩张量广义线性模型(LSR-TGLMs). 该算法将Muon更新步骤整合到现有的LSRTR框架中, 以替代计算成本较高的QR投影, 从而在合成数据和3D图像分类任务上实现了更快的收敛速度和计算效率.

Neuromorphic Computing for Low-Power Artificial Intelligence

Keshava Katti, Pratik Chaudhari, Deep Jariwala

cs.AR cs.AI

本文综述了传统CMOS技术在能效上面临的根本性限制, 并探讨了受大脑启发的神经形态计算如何通过结合新型器件、存内计算、模拟动力学和稀疏通信等跨层协同设计, 为人工智能系统提供一条提升能效和可扩展性的有前景的路径.

Discovering Failure Modes in Vision-Language Models using RL

Kanishk Jain et al.

cs.CV cs.AI

本文提出了一种基于强化学习(RL)的框架, 用于自动发现视觉语言模型(VLMs)在特定数据分布上的失败模式. 该方法训练一个提问智能体(agent)来生成查询, 从而揭示模型在计数, 空间推理等细粒度视觉概念上的弱点.

Fine-Tuning Integrity for Modern Neural Networks: Structured Drift Proofs via Norm, Rank, and Sparsity Certificates

Zhenhang Shang, Kani Chen

cs.CR cs.LG

本文提出了一种用于保障神经网络微调过程完整性的新安全框架. 通过引入Succinct Model Difference Proofs (SMDPs)这一密码学原语, 系统能够以零知识证明的方式验证模型更新是否满足范数有界, 低秩或稀疏等策略定义的漂移约束. 该方法不依赖于模型大小, 并针对Transformer等架构给出了具体实现.

Artificial Intelligence and Cost Reduction in Public Higher Education: A Scoping Review of Emerging Evidence

Diamanto Tzanoulinou et al.

cs.CY cs.AI

本文对人工智能在公立高等教育中降低成本的应用进行了范围综述。研究发现AI可以通过自动化行政任务和优化资源分配等方式实现成本节约，但也指出了实施成本和不平等获取等问题。

Undetectable Conversations Between AI Agents via Pseudorandom Noise-Resilient Key Exchange

Vinod Vaikuntanathan, Or Zamir

cs.CR cs.AI cs.LG

本文研究了AI代理之间进行隐蔽通信的可能性, 提出了一种在无预共享密钥情况下实现隐蔽密钥交换的新方法. 该方法基于一种称为伪随机抗噪密钥交换的新密码学原语, 即使面对强大的被动审计者, 也能使通信在计算上不可区分.

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

Zijun Wang et al.

cs.CR cs.AI cs.CL

本文对广泛部署的个人AI智能体OpenClaw进行了首次现实世界安全评估。研究提出了CIK分类法来分析智能体的持久状态，并在多个模型上测试了多种攻击场景，结果表明现有防御策略存在不足。

MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

Bin Wang et al.

cs.CV cs.CL

本文提出了一种专注于数据工程和训练策略优化的文档解析方法MinerU2.5-Pro，其核心在于设计了一个围绕覆盖率、信息量和标注精度的数据引擎，并采用三阶段渐进式训练策略。该方法在不改变模型架构的情况下，在OmniDocBench~v1.6评估协议上取得了显著的性能提升，超越了参数量大得多的模型。

A Quantum Search Approach to Magic Square Constraint Problems with Classical Benchmarking

Rituparna R, Harsha Varthini, Aswani Kumar Cherukuri

quant-ph cs.AI

本文提出了一种用于解决组合约束满足问题(如构造幻方)的量子搜索方法. 该方法利用经典预处理缩小搜索空间, 然后通过设计量子Oracle和扩散算子, 使用Grover算法进行量子搜索. 实验在小型实例上验证了方法的正确性, 并展示了相对于经典搜索的理论二次加速优势.

Multi-Modal Sensor Fusion using Hybrid Attention for Autonomous Driving

Mayank Mayank et al.

cs.CV cs.LG

本文提出了一种用于自动驾驶的雷达-相机多模态融合框架MMF-BEV, 该框架利用可变形注意力机制在BEV空间进行特征对齐与融合. 通过两阶段训练策略, 模型在VoD数据集上超越了单模态基线, 并取得了有竞争力的结果.

Partially deterministic sampling for compressed sensing with denoising guarantees

Yaniv Plan, Matthew S. Scott, Ozgur Yilmaz

cs.IT cs.LG eess.SP math.PR stat.ML

本文提出了一种用于压缩感知的优化采样方案, 结合了随机与确定性行选择. 该方案在理论和数值实验上均优于传统的采样方法, 并提供了改进的样本复杂度界限和去噪保证.

Hybrid Fourier Neural Operator for Surrogate Modeling of Laser Processing with a Quantum-Circuit Mixer

Mateusz Papierz et al.

quant-ph cs.CE cs.LG physics.comp-ph

本文提出了一种混合量子-经典 Fourier Neural Operator (HQ-LP-FNO), 用于三维激光加工过程的多物理场代理建模. 该方法用参数高效的变分量子电路 (VQC) 替换部分经典 spectral mixing 模块, 在减少参数的同时提升了预测精度.

A Robust SINDy Autoencoder for Noisy Dynamical System Identification

Kairui Ding

stat.ME cs.LG stat.ML

本文提出了一种结合噪声分离模块的鲁棒SINDy自编码器, 用于从含噪声数据中识别非线性动力系统. 该方法在Lorenz系统上的数值实验表明, 其能够恢复可解释的潜在动力学并准确估计测量噪声.

InfBaGel: Human-Object-Scene Interaction Generation with Dynamic Perception and Iterative Refinement

Yude Zou et al.

cs.CV cs.AI

本文提出了一个用于生成人-物-场景交互的框架, 采用从粗到细的指令条件生成方式, 并与一致性模型的迭代去噪过程对齐. 该框架通过动态感知策略和碰撞感知引导来提升交互的物理合理性和一致性, 并利用混合训练策略缓解数据稀缺问题.

Optimal Contest Beyond Convexity

Negin Golrezaei, MohammadTaghi Hajiaghayi, Suho Shin

cs.GT cs.DS econ.TH math.OC

本文研究了竞赛设计问题, 在参赛者质量目标函数非凸的一般设定下刻画了最优机制的结构. 作者证明了最优奖励结构具有高度规律性: 第一名可能获得最高奖励, 最后一名奖励为零, 中间名次奖励相等. 基于此结构, 论文为给定价值预言机的问题提供了一个完全多项式时间近似方案.

Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency

Guan-Ting Lin et al.

eess.AS cs.CL

本文提出了一个用于评估语音智能体在真实世界不流畅语音条件下工具使用能力的基准测试工具 Full-Duplex-Bench-v3. 该工具基于真实人类语音数据构建, 评估了多种主流模型在准确性, 延迟和对话轮转方面的表现.

Strengthening Human-Centric Chain-of-Thought Reasoning Integrity in LLMs via a Structured Prompt Framework

Jiling Zhou et al.

cs.CR cs.AI

本文提出了一个用于增强大型语言模型(LLM)在安全敏感任务中推理完整性的结构化提示工程框架. 该框架通过引入明确的推理控制来减少幻觉和推理漂移, 并以软件定义网络(SDN)中的DDoS攻击检测为例验证了其有效性.

DIRECT: Video Mashup Creation via Hierarchical Multi-Agent Planning and Intent-Guided Editing

Ke Li et al.

cs.CV cs.AI cs.MM

本文提出了一个用于视频混剪创作的分层多智能体规划框架 DIRECT, 将其建模为一个多模态连贯性满足问题. 该框架通过模拟专业制作流程, 在多个层级上协调语义、视觉和听觉元素, 并在基准测试中超越了现有方法.

Muon Dynamics as a Spectral Wasserstein Flow

Gabriel Peyré

math.OC cs.AI stat.ML

本文研究了在深度学习中用于参数矩阵的谱归一化方法族, 并将其置于概率测度的平均场框架下进行分析. 通过引入一族由矩阵范数索引的 Spectral Wasserstein 距离, 统一了经典 Wasserstein 距离和 Muon 几何等方案, 并探讨了其静态与动态公式、高斯边际下的性质及其诱导的梯度流.

Agentic Federated Learning: The Future of Distributed Training Orchestration

Rafael O. Jarczewski et al.

cs.MA cs.AI

本文提出了一种名为Agentic-FL的新框架，利用基于语言模型的智能体（LMagents）来自主协调联邦学习过程。该框架旨在解决客户端异构性和动态系统环境带来的挑战，并讨论了其可靠性与安全性问题。

FileGram: Grounding Agent Personalization in File-System Behavioral Traces

Shuai Liu et al.

cs.CV cs.AI

本文提出了一个名为FileGram的框架, 用于基于文件系统行为轨迹来构建AI agent的记忆与个性化. 它包含一个数据生成引擎, 一个评估基准和一个新的记忆架构.

How AI Aggregation Affects Knowledge

Daron Acemoglu et al.

econ.TH cs.AI cs.CY cs.SI

本文通过扩展 DeGroot 模型，引入一个基于群体信念进行训练并向个体反馈合成信号的 AI 聚合器，研究了 AI 聚合如何影响社会学习。作者定义了学习差距来衡量长期信念与有效基准的偏差，并发现聚合器更新速度存在一个阈值：更新过快时，没有训练权重能稳健地改善学习；更新足够慢时则存在这样的权重。此外，研究比较了全局与局部聚合架构，指出局部聚合器在所有环境下都能稳健地改善学习，而用单一全局聚合器替代则会至少在某个维度上恶化学习效果。

Analyzing Symbolic Properties for DRL Agents in Systems and Networking

Mohammad Zangooei et al.

cs.NI cs.AI cs.LG

本文针对系统与网络中的深度强化学习(DRL)智能体, 提出了一种分析符号性质(symbolic properties)的通用框架diffRL. 该方法将单调性(monotonicity)和鲁棒性(robustness)等性质编码为策略执行的比较问题, 并利用现有的DNN验证引擎进行分析, 在自适应视频流、无线资源管理和拥塞控制等案例中展示了比点性质(point properties)更广的覆盖范围.

Vero: An Open RL Recipe for General Visual Reasoning

Gabriel Sarch et al.

cs.CV cs.AI cs.CL

本文提出了一个名为Vero的开放视觉语言模型强化学习配方, 通过构建大规模、多任务的RL数据集Vero-600K并设计任务路由奖励, 在广泛的视觉推理任务上取得了与现有最佳模型相当或更优的性能. 实验表明, 广泛的训练数据覆盖是模型性能提升的关键驱动力.

PINNs in PDE Constrained Optimal Control Problems: Direct vs Indirect Methods

Zhen Zhang et al.

math.OC cs.LG

本文研究了将物理信息神经网络(PINNs)应用于半线性偏微分方程最优控制问题的数值方法. 它比较了基于直接最小化目标函数和基于一阶最优性系统的间接方法这两种PINN公式, 并通过一个Allen-Cahn控制问题的数值实验进行了评估.

Your Pre-trained Diffusion Model Secretly Knows Restoration

Sudarshan Rajagopalan, Vishal M. Patel

cs.CV cs.AI

本文提出了一种无需微调即可利用预训练扩散模型进行图像修复的方法. 该方法通过在学习文本编码器输出端学习特定的提示嵌入(prompt embedding), 解锁了模型内在的修复能力. 实验表明, 该方法在多种退化类型上取得了有竞争力的性能.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others