bluearXiv-ai - 2026-04-20

📄 所有论文 ↑ 回顶部

cs.LG

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason ⭐ 精选

Yi Liu

cs.LG

本文通过谱分析研究了大型语言模型在推理与事实回忆任务中隐藏激活空间的几何特性. 发现了七个核心现象, 包括推理谱压缩, 指令微调谱反转以及仅凭谱指数$\alpha$即可在答案生成前近乎完美预测正确性等. 这些发现为理解Transformer的推理机制建立了一个全面的谱理论, 揭示了思维几何的普遍性与模型特异性. 该工作为模型内部动态提供了新的分析工具和理论框架.

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit ⭐ 精选

Gregory Magarshak

cs.LG cs.AI cs.IT cs.NE

本文提出了一种超越传统逐向量压缩极限的序列化KV缓存压缩方法。通过引入概率语言前缀树(PLT)进行语义前缀去重，并结合基于模型自身预测的残差编码，该方法将压缩的理论下界降至每个token约3.3-4.3比特。这显著超越了TurboQuant等现有逐向量量化方法，理论上可获得高达约914,000倍的压缩比，并且压缩效率随上下文长度增加而提升。该方法与现有量化技术正交，为解决大语言模型推理中的内存瓶颈问题提供了新的理论框架和极具潜力的方向。

Closing the Theory-Practice Gap in Spiking Transformers via Effective Dimension ⭐ 精选

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.LG cs.AI

本文为spiking self-attention建立了首个全面的表达能力理论。证明了使用Leaky Integrate-and-Fire神经元的spiking attention是连续置换等变函数的通用逼近器，并提供了具体的spike电路构造。通过rate-distortion理论推导了紧密的spike数量下界，并利用有效维度这一关键洞察解释了为何实践中少量时间步长即可达到良好性能，为神经形态transformer设计提供了首个理论原则基础。

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Abdulmalek Saket

cs.LG cs.CL

本文提出了一种名为Aletheia的梯度引导层选择方法，用于提升LoRA微调的效率。该方法通过轻量级梯度探测识别任务相关层，并仅在这些层上应用非对称秩分配的LoRA适配器，从而在多种模型架构上实现了显著的训练加速，同时保持了主要的下游任务性能。

Mapping High-Performance Regions in Battery Scheduling across Data Uncertainty, Battery Design, and Planning Horizons

Jaime de Miguel Rodriguez et al.

cs.LG eess.SY

本文研究了在模型预测控制下电池储能系统的调度问题, 分析了数据特征、预测不确定性、规划时域和电池倍率(C-rate)之间的相互作用. 通过合成数据集进行参数化分析, 识别了"有效时域"的存在, 并量化了预测误差对收益的影响, 为工业应用中的计算成本优化提供了实用指导.

M3R: Localized Rainfall Nowcasting with Meteorology-Informed MultiModal Attention

Sanjeev Panta et al.

cs.LG cs.CV cs.MM

本文提出了一种名为M3R的降水临近预报模型，它通过一种新颖的多模态注意力机制，将雷达图像与地面气象站数据相结合进行预测。实验表明该模型在特定区域取得了优于现有方法的性能。

Lightweight Geometric Adaptation for Training Physics-Informed Neural Networks

Kang An et al.

cs.LG cs.AI stat.ML

本文提出了一种轻量级的曲率感知优化框架, 用于改进Physics-Informed Neural Networks (PINNs)的训练. 该方法利用连续的梯度差作为局部几何变化的廉价代理, 并结合步长归一化的割线曲率指示器来控制修正强度, 从而提升收敛速度、训练稳定性和求解精度. 实验在多个PDE基准问题上验证了其有效性.

Python library supporting Discrete Variational Formulations and training solutions with Collocation-based Robust Variational Physics Informed Neural Networks (DVF-CRVPINN)

Tomasz Służalec et al.

cs.LG math.NA

本文提出了一种基于离散变分公式的Python库, 用于求解偏微分方程(PDEs). 该方法通过定义离散计算域、离散内积和基于Kronecker delta测试函数的离散弱形式, 并结合使用离散自动微分的神经网络进行训练.

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

G. Aytug Akarlar

cs.LG cs.AI cs.CL

本文通过因果干预实验研究了Transformer模型生成中的幻觉现象, 提出其本质是早期轨迹承诺和不对称吸引子动力学. 研究发现, 幻觉轨迹一旦进入便难以纠正, 而正确的轨迹则容易被破坏, 且这种动力学结构在输入编码阶段就已形成.

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Saif Mahmoud, Ahmad Almasri

cs.LG cs.AI

本文针对Vision Transformers (ViTs) token pruning后，在现有变长attention API（如FlashAttention-2 varlen）上运行时，因dispatch开销导致实际加速效果不佳的问题，提出了一种轻量级的双向Triton attention kernel。该kernel显著降低了dispatch延迟，使得剪枝带来的计算量减少能更有效地转化为端到端的吞吐率提升，并在多种剪枝算法和模型上保持了预测的准确性。

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Ranjith Chodavarapu, Lei Xu

cs.LG cs.AI

本文揭示了在FP16精度下, KV caching (键值缓存) 与无缓存计算在自回归transformer推理中并非数值等价. 由于FP16的非结合性, 缓存开启与关闭的执行路径会产生确定性的解码token序列差异, 这并非由采样随机性导致. 实验通过FP32验证了FP16非结合性是唯一原因, 并分析了不同注意力架构下的误差传播模式.

PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

Tingjia Miao et al.

cs.LG cs.AI physics.data-an

本文提出了一个名为PRL-Bench的基准测试，用于评估大语言模型在理论物理和计算物理领域进行端到端科学研究的能力。该基准基于近期《物理评论快报》的论文构建，覆盖多个物理子领域，旨在模拟真实科研的探索性和长流程特性。

Beyond Single-Model Optimization: Preserving Plasticity in Continual Reinforcement Learning

Lute Lillo, Nick Cheney

cs.LG cs.AI cs.NE

本文提出了一个名为TeLAPA的持续强化学习框架, 通过维护行为多样化的策略档案和共享潜在空间来增强智能体的可塑性. 该方法在MiniGrid CL环境中展现出更快的任务能力恢复和更高的整体性能, 为超越单一模型保存的持续学习提供了新思路.

StoSignSGD: Unbiased Structural Stochasticity Fixes SignSGD for Training Large Language Models

Dingzhi Yu et al.

cs.LG cs.AI math.OC

本文提出了一种名为StoSignSGD的新优化算法，旨在解决SignSGD在非光滑目标函数上的发散问题。该算法通过注入结构性随机性来保持更新步骤的无偏性，并在大语言模型训练中展现了良好的稳定性和效率。

Transfer Learning from Foundational Optimization Embeddings to Unsupervised SAT Representations

Koyena Pal, Serdar Kadioglu

cs.LG cs.AI cs.LO

本文探讨了将针对 mixed-integer programming (MIP) 预训练的 foundational optimization embeddings 迁移到 Boolean satisfiability (SAT) 问题上的可能性. 通过将 CNF 公式映射为与 MIP 相同的 bipartite constraint-variable graph, 作者无需修改模型架构或进行监督微调, 即可在无监督任务中验证其有效性.

Evaluating LLM Simulators as Differentially Private Data Generators

Nassima M. Bouzid et al.

cs.LG cs.CL cs.CR

本文评估了基于LLM的模拟器在差分隐私数据生成中的表现. 研究发现, 虽然LLM模拟器在欺诈检测等任务上展现出一定潜力, 但其存在显著的分布漂移问题, 这限制了其在处理复杂用户表示时的可靠性.

Harmonizing Multi-Objective LLM Unlearning via Unified Domain Representation and Bidirectional Logit Distillation

Yisheng Zhong, Sijia Liu, Zhuangdi Zhu

cs.LG cs.AI

本文提出了一种多目标LLM遗忘框架, 通过统一数据表示和双向logit蒸馏来协调多个遗忘目标. 该方法旨在同时实现有害知识移除、通用能力保持、边界行为控制和对抗鲁棒性.

$π_{0.7}$: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

Physical Intelligence et al.

cs.LG cs.RO

本文提出了一个名为 ${\pi}_{0.7}$ 的可操控通用机器人基础模型。该模型通过多样化的上下文条件（context conditioning）进行训练，能够在未见过的环境中遵循语言指令执行多种任务，并展现出零样本跨具身泛化等能力。

FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models

Zixuan Weng et al.

cs.LG cs.AI cs.CL

本文提出了一个名为 FineSteer 的统一框架，用于在大型语言模型中进行细粒度的推理时引导。该框架通过条件引导和细粒度向量合成两个阶段，实现了对模型内部表示的精确控制，在保持模型通用能力的同时，有效提升了在安全和真实性任务上的引导性能。

ProtoTTA: Prototype-Guided Test-Time Adaptation

Mohammad Mahdi Abootorabi et al.

cs.LG cs.CV

本文提出了ProtoTTA框架，用于提升基于prototype的可解释模型在测试时分布偏移下的鲁棒性。该方法通过优化prototype相似度分布的熵，并结合几何过滤与正则化进行稳定更新。

Optimizing Stochastic Gradient Push under Broadcast Communications

Tuan Nguyen, Ting He

cs.LG cs.DC math.OC

本文研究了在广播通信下优化去中心化联邦学习的收敛时间问题, 重点关注混合矩阵的设计. 通过分析随机梯度推送算法的收敛率与混合矩阵的关系, 提出了一个基于图论参数的优化目标, 并开发了一种高效的设计算法. 实验表明, 该方法能在不损失模型质量的前提下, 显著减少收敛时间.

Natural gradient descent with momentum

Anthony Nouy, Agustín Somacal

cs.LG cs.AI math.NA math.OC

本文提出了一种结合动量机制的 natural gradient descent (NGD) 方法，用于优化定义在非线性流形（如神经网络或张量网络）上的损失函数。该方法旨在改善标准 NGD 在非理想条件问题中的收敛性能。

Learning Affine-Equivariant Proximal Operators

Oriel Savir, Zhenghan Fang, Jeremias Sulam

cs.LG cs.CV

本文提出了一种能够保证仿射等变性的学习型邻近算子网络(AE-LPNs). 该方法增强了学习型算子在分布外数据上的鲁棒性和实用性.

Predicting Where Steering Vectors Succeed

Jayadev Billa

cs.LG cs.CL

本文提出了一种称为 Linear Accessibility Profile (LAP) 的诊断方法，用于预测在大型语言模型中 steering vectors 的有效性。该方法无需训练，通过分析模型各层的隐藏状态来指导干预策略的选择。

Reward Weighted Classifier-Free Guidance as Policy Improvement in Autoregressive Models

Alexander Peysakhovich, William Berman

cs.LG cs.AI

本文提出了一种称为reward weighted classifier-free guidance (RCFG)的方法, 用于在无需重新训练的情况下, 调整自回归模型的输出分布以优化新的奖励函数. 该方法在分子生成任务中进行了验证, 并可作为策略改进算子加速强化学习的收敛.

PAWN: Piece Value Analysis with Neural Networks

Ethan Tang et al.

cs.LG cs.AI

本文提出了一种名为PAWN的神经网络方法, 用于预测国际象棋中棋子的相对价值. 该方法通过CNN自编码器编码完整的棋盘状态作为上下文, 显著提升了基于MLP的棋子价值预测模型的准确性.

Adapting in the Dark: Efficient and Stable Test-Time Adaptation for Black-Box Models

Yunbei Zhang et al.

cs.LG cs.CV

本文提出了一种名为BETA的高效黑盒模型测试时自适应框架, 通过引入轻量级的局部白盒引导模型来构建可处理的梯度路径. 该方法结合预测协调与一致性正则化等技术, 在无需额外API调用和几乎不增加延迟的情况下实现了稳定的自适应, 在ImageNet-C等基准上超越了多种白盒和灰盒方法.

VoodooNet: Achieving Analytic Ground States via High-Dimensional Random Projections

Wladimir Silva

cs.LG cs.AI

本文提出了一种名为VoodooNet的非迭代神经网络架构。它通过将输入流形投影到高维空间并使用Moore-Penrose伪逆求解输出层，绕过了传统的反向传播训练过程。

Flexible Empowerment at Reasoning with Extended Best-of-N Sampling

Taisuke Kobayashi

cs.LG

本文提出了一种在强化学习的推理过程中融入empowerment概念的新方法, 旨在灵活处理探索-利用困境(exploration-exploitation dilemma, EED). 该方法通过扩展best-of-N采样技术, 特别是结合Tsalis统计量, 来隐式地调整策略, 避免了传统内在激励方法中显式学习策略的延迟. 在玩具问题和复杂运动任务上的实验验证了该方法在平衡EED和提升学习性能方面的有效性.

Majority Voting for Code Generation

Tim Launer et al.

cs.LG

本文提出了一种基于functional consensus的Functional Majority Voting (FMV)方法，用于提升大语言模型在代码生成任务上的性能。该方法通过运行时代码执行签名从多个生成结果中选取代表性方案，并在LiveCodeBench基准上取得了显著效果提升。

PINNACLE: An Open-Source Computational Framework for Classical and Quantum PINNs

Shimon Pisnoy et al.

cs.LG physics.comp-ph quant-ph

本文介绍了一个名为PINNACLE的开源计算框架，该框架集成了多种现代训练策略，用于系统评估Physics-Informed Neural Networks (PINNs)在各类基准问题上的性能。

Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints

Xinge Liu et al.

cs.LG

本文介绍了一个名为Stargazer的基准测试环境，用于评估AI智能体在天体物理约束下的模型拟合能力。该环境基于径向速度时间序列数据，包含多个难度等级的任务，并揭示了当前智能体在满足物理约束方面的不足。

NK-GAD: Neighbor Knowledge-Enhanced Unsupervised Graph Anomaly Detection

Zehao Wang, Lanjun Wang

cs.LG

本文提出了一种名为NK-GAD的无监督图异常检测框架，旨在解决属性级异质性图中异常检测的挑战。该方法通过整合邻居特征编码、分布建模和双重解码器来提升检测性能，并在多个数据集上验证了其有效性。

Faster LLM Inference via Sequential Monte Carlo

Yahya Emara et al.

cs.LG cs.CL

本文提出了一种名为SMC-SD的序列蒙特卡洛推测解码方法，用于加速大语言模型推理。该方法通过重采样一组候选token来替代传统的逐token拒绝机制，从而在保持模型准确性的同时显著提升推理速度。

Hierarchical Active Inference using Successor Representations

Prashant Rangarajan, Rajesh P. N. Rao

cs.LG cs.AI cs.CV

本文提出了一种基于层次化 active inference 和 successor representations 的规划模型。该方法在多个规划与强化学习任务上进行了验证，展示了层次化抽象状态与动作如何促进高效规划。

Neural Continuous-Time Markov Chain: Discrete Diffusion via Decoupled Jump Timing and Direction

Jingyuan Li et al.

cs.LG math.PR

本文提出了一种名为Neural CTMC的离散扩散模型, 它将连续时间Markov链的反向过程分解为"退出率"和"跳跃分布"两个部分进行参数化. 理论分析表明其训练目标与路径空间KL散度仅相差一个常数, 并且该散度可分解为泊松分布和分类分布的KL散度之和. 在OpenWebText数据集上的实验表明, 这种基于纯均匀噪声的方法性能优于基于掩码的方法.

Graph self-supervised learning based on frequency corruption

Haojie Li et al.

cs.LG cs.SI

本文提出了一种基于频率信息构建损坏图的自监督学习方法, 通过针对节点的低频贡献进行损坏, 并利用自编码器重建低频与通用特征作为监督目标. 该方法在多个图学习任务上展现了性能提升.

Towards Robust Endogenous Reasoning: Unifying Drift Adaptation in Non-Stationary Tuning

Xiaoyu Yang et al.

cs.LG

本文针对多模态大语言模型在强化微调中存在的内生推理漂移问题, 提出了一个名为Counterfactual Preference Optimization ++ (CPO++) 的适应性框架. 该框架通过整合反事实推理与领域知识, 在思维和感知层面进行受控扰动, 以解耦虚假关联, 并在医疗诊断和自动驾驶等安全关键领域进行了验证.

Reasoning-targeted Jailbreak Attacks on Large Reasoning Models via Semantic Triggers and Psychological Framing

Zehao Wang, Lanjun Wang

cs.LG cs.AI

本文针对大型推理模型(LRMs)提出了一种新颖的越狱攻击方法, 旨在将有害内容注入其推理过程, 同时保持最终答案不变. 该方法通过语义分析和心理学理论生成诱导性指令, 在多个商业模型上取得了较高的攻击成功率.

Why Colors Make Clustering Harder:Global Integrality Gaps, the Price of Fairness, and Color-Coupled Algorithms in Chromatic Correlation Clustering

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

cs.LG

本文研究了Chromatic Correlation Clustering (CCC)问题，该问题在标准Correlation Clustering基础上引入了边的颜色标签。作者分析了其LP松弛的全局不可约间隙，并提出了新的Color-Coupled算法来改进近似比。理论结果在合成与真实数据上得到了验证。

Collective Kernel EFT for Pre-activation ResNets

Hidetoshi Kawase, Toshihiro Ota

cs.LG hep-th stat.ML

本文针对有限宽度预激活ResNets，基于仅含经验核$G$的闭合层次结构，发展了一种集体核有效场论(EFT)。该理论推导了$G$的精确随机递推关系，并通过高斯近似得到了平均核$K_0$、核协方差$V_4$及$1/n$平均修正$K_{1,\mathrm{EFT}}$的连续深度ODE系统。数值分析表明，$K_0$在所有深度保持准确，但$V_4$方程残差会累积$O(1)$误差，且$K_{1,\mathrm{EFT}}$因源闭合失效而失败，这揭示了仅依赖$G$的状态空间约化的局限性。

DepCap: Adaptive Block-Wise Parallel Decoding for Efficient Diffusion LM Inference

Xiang Xia et al.

cs.LG cs.AI

本文提出了一种名为DepCap的训练无关框架, 用于提升Diffusion language models (DLMs)的块状并行解码效率. 该方法通过利用跨步信号自适应确定块边界, 并在块内识别无冲突的token子集进行安全并行解码, 从而在多个基准测试上实现了显著的推理加速且性能损失可忽略.

Multi-objective Reinforcement Learning With Augmented States Requires Rewards After Deployment

Peter Vamplew, Cameron Foale

cs.LG

本文指出了多目标强化学习(MORL)与单目标强化学习(RL)之间一个被忽视的区别。它解释了为什么使用增强状态(augmented state)的MORL智能体在部署后仍需持续访问奖励信号，并讨论了其实际影响。

Zero-Shot Scalable Resilience in UAV Swarms: A Decentralized Imitation Learning Framework with Physics-Informed Graph Interactions

Huan Lin, Lianghui Ding

cs.LG

本文提出了一种用于大规模无人机集群在故障后分散式恢复的算法 PhyGAIL. 该算法结合了物理信息图神经网络与模仿学习, 实现了在训练规模与故障严重程度变化下的策略迁移与高效恢复.

When Do Early-Exit Networks Generalize? A PAC-Bayesian Theory of Adaptive Depth

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.LG cs.AI

本文为 early-exit networks 建立了一个统一的 PAC-Bayesian 理论框架。它推导出了依赖于期望深度和退出深度熵的泛化界，并通过实验验证了其紧致性。

Federated Learning with Quantum Enhanced LSTM for Applications in High Energy Physics

Abhishek Sawaika et al.

cs.LG hep-ex quant-ph

本文提出了一种结合联邦学习与量子增强LSTM的混合模型, 用于高能物理中的分类任务. 该模型在SUSY数据集上展示了与经典深度学习基准相当的性能, 同时显著减少了参数和数据需求.

Pruning Unsafe Tickets: A Resource-Efficient Framework for Safer and More Robust LLMs

Wai Man Si et al.

cs.LG cs.CL

本文提出了一种资源高效的剪枝框架, 用于识别并移除大型语言模型中与不安全行为相关的参数子网络. 该方法无需梯度计算, 资源消耗低, 能在减少有害输出的同时较好地保持模型的有用性能.

Fusing Cellular Network Data and Tollbooth Counts for Urban Traffic Flow Estimation

Oluwaleke Yusuf, Shaira Tabassum

cs.LG physics.soc-ph

本文提出了一种融合稀疏收费站数据和蜂窝网络数据的机器学习框架, 用于估计城市交通流。该方法通过校正和分解聚合的移动数据来生成按车辆类别划分的起讫点矩阵, 并应用于交通基础设施规划案例。

Oluwaleke Yusuf, M. Tsaqif Wismadi, Adil Rasheed

cs.LG

本文提出了一种基于混合去噪自编码器(HDAE)的自行车站点扩展方法, 通过从现有成功站点的多源特征中学习潜在表示, 并基于潜在空间相似性进行贪婪分配来选择新站点. 在特隆赫姆的共享单车网络上验证了该方法能产生更合理的空间分配模式.

EVIL: Evolving Interpretable Algorithms for Zero-Shot Inference on Event Sequences and Time Series with LLMs

David Berghaus

cs.LG cs.AI

本文提出了一种名为EVIL的方法, 它利用LLM引导的进化搜索来发现用于动态系统推断的简单、可解释算法. 该方法生成的Python/NumPy程序能够在多个数据集上进行零样本、上下文推断, 在三个不同任务上展现了与深度学习模型相当甚至更优的性能, 同时速度更快且完全可解释.

Convolutionally Low-Rank Models with Modified Quantile Regression for Interval Time Series Forecasting

Miaoxuan Zhu et al.

cs.LG

本文提出了一种结合卷积低秩模型与改进分位数回归的区间时间序列预测方法. 该方法旨在为点预测提供不确定性估计, 并通过区间校准技术提升预测区间的准确性.

Self-Distillation as a Performance Recovery Mechanism for LLMs: Counteracting Compression and Catastrophic Forgetting

Chi Liu et al.

cs.LG cs.AI cs.CL

本文提出了一个基于自蒸馏微调(SDFT)的性能恢复框架,用于缓解大型语言模型(LLMs)在微调或压缩后的性能下降. 作者通过理论分析和实验验证, 将性能恢复与模型内部表示的流形对齐联系起来.

ECG-Lens: Benchmarking ML & DL Models on PTB-XL Dataset

Saloni Garg et al.

cs.LG cs.AI cs.CE cs.NE eess.SP

本文在PTB-XL数据集上比较了多种传统机器学习与深度学习模型对ECG信号的分类性能. 研究发现, 在原始12导联ECG数据上, 复杂的CNN架构(如ECG-Lens)的表现显著优于传统方法.

Placing Puzzle Pieces Where They Matter: A Question Augmentation Framework for Reinforcement Learning

Yangyi Fang et al.

cs.LG

本文提出了一种名为PieceHint的提示注入框架, 用于增强强化学习中的语言模型推理. 该方法通过评分推理步骤的重要性, 选择性提供提示并逐步撤出辅助, 使模型从引导学习过渡到独立推理. 在六个数学推理基准上的实验表明, 其1.5B模型取得了与32B基线相当的平均性能.

Modern Structure-Aware Simplicial Spatiotemporal Neural Network

Zhaobo Hu, Vincent Gauthier, Mehdi Naima

cs.LG

本文提出了一种名为ModernSASST的模型, 用于时空建模. 该方法利用单纯复形结构和高维随机游走, 结合可并行的时间卷积网络, 旨在捕获高阶拓扑关系并保持计算效率.

Reversible Residual Normalization Alleviates Spatio-Temporal Distribution Shift

Zhaobo Hu, Vincent Gauthier, Mehdi Naima

cs.LG

本文提出了一种名为Reversible Residual Normalization (RRN)的新框架，用于缓解图结构上时空预测模型中的分布偏移问题。该方法通过可逆残差块整合图卷积操作，实现了对时空关系的自适应归一化。

DPrivBench: Benchmarking LLMs' Reasoning for Differential Privacy

Erchi Wang et al.

cs.LG cs.AI cs.CR

本文提出了一个名为DPrivBench的基准测试，用于评估大型语言模型在差分隐私推理任务上的能力。该基准旨在克服现有方法的局限性，并揭示了当前模型在处理高级算法时仍存在显著不足。

QuantSightBench: Evaluating LLM Quantitative Forecasting with Prediction Intervals

Jeremy Qin, Maksym Andriushchenko

cs.LG cs.AI

本文提出了一个名为QuantSightBench的新基准，用于评估大语言模型在连续数值预测区间上的表现。研究结果表明，当前前沿模型在预测区间的校准和覆盖度方面存在系统性缺陷。

(Weighted) Adaptive Radius Near Neighbor Search: Evaluation for WiFi Fingerprint-based Positioning

Khang Le, Joaquín Torres-Sospedra, Philipp Müller

cs.LG stat.AP

本文提出了Adaptive Radius Near Neighbor (ARNN)和Weighted ARNN (WARNN)方法, 作为Fixed Radius Near Neighbor (FRNN)的改进. 在WiFi指纹室内定位的回归问题上, 通过22个数据集与kNN及其变体进行比较, 发现加权自适应距离的WARNN版本表现最佳.

TwinTrack: Post-hoc Multi-Rater Calibration for Medical Image Segmentation

Tristan Kirscher et al.

cs.LG

本文提出了TwinTrack框架, 用于医学图像分割任务中的多标注者后验校准. 该方法通过将模型输出的概率校准到经验平均人类响应(MHR), 从而显式地建模标注者间的不确定性.

Multi-Objective Bayesian Optimization via Adaptive \varepsilon-Constraints Decomposition

Yaohong Yang, Sammie Katt, Samuel Kaski

cs.LG

本文提出了一种名为STAGE-BO的多目标贝叶斯优化方法，旨在通过自适应$\varepsilon$约束分解来改善帕累托前沿的覆盖范围。该方法将优化问题转化为一系列带约束的子问题，无需计算超体积指标，并能处理约束和偏好设置。

Evaluating quality in synthetic data generation for large tabular health datasets

Jean-Baptiste Escudié et al.

cs.LG

本文针对大型健康数据集的合成数据生成质量评估问题, 提出了一种结合可视化与量化指标的综合评估方法. 该方法在德国癌症登记数据集等不同规模的数据集上, 对七种主流机器学习模型进行了系统性的超参数调优与比较.

Impact of Nonlinear Power Amplifier on Massive MIMO: Machine Learning Prediction Under Realistic Radio Channel

Marcin Hoffmann, Paweł Kryszkiewicz

cs.LG

本文研究了非线性功率放大器对大规模MIMO系统的影响, 提出了基于机器学习的方法来预测信号失真比. 通过利用3D射线追踪数据和统计建模, 该方法旨在实现更优的功率分配, 从而提升用户吞吐量.

Corner Reflector Array Jamming Discrimination Using Multi-Dimensional Micro-Motion Features with Frequency Agile Radar

Jie Yuan et al.

cs.LG

本文提出了一种结合手工特征与深度学习的方法, 用于频率捷变雷达下区分真实舰船目标与角反射器阵列干扰. 该方法利用多维微动特征, 并引入XGBoost分类器进行最终判别.

AEGIS: Anchor-Enforced Gradient Isolation for Knowledge-Preserving Vision-Language-Action Fine-Tuning

Guransh Singh

cs.LG cs.CV

本文提出了一种名为AEGIS的梯度隔离方法, 用于在视觉-语言-动作微调中保护预训练知识. 该方法通过正交投影来隔离破坏性的梯度方向, 从而在保持视觉问答能力的同时进行连续动作学习.

Prototype-Grounded Concept Models for Verifiable Concept Alignment

Stefano Colamonaco et al.

cs.LG cs.AI cs.NE

本文提出了一种基于视觉原型的概念瓶颈模型, 通过将概念锚定在可学习的图像局部原型上, 增强了模型的可解释性和可干预性. 该方法在保持预测性能的同时, 允许直接检查概念语义并支持人工干预以修正概念偏差.

Unveiling Stochasticity: Universal Multi-modal Probabilistic Modeling for Traffic Forecasting

Weijiang Xiong, Robert Fonod, Nikolas Geroliminis

cs.LG cs.AI

本文提出了一种通用方法, 通过将现有交通预测模型的最终输出层替换为 Gaussian Mixture Model (GMM) 层, 将其转变为概率预测器. 该方法无需修改训练流程, 仅使用 Negative Log-Likelihood (NLL) 损失进行训练, 并在多个数据集上验证了其有效性和对数据质量不佳情况的鲁棒性.

The Harder Path: Last Iterate Convergence for Uncoupled Learning in Zero-Sum Games with Bandit Feedback

Côme Fiegel et al.

cs.LG stat.ML

本文研究了零和矩阵博弈中具有bandit反馈的无耦合学习问题. 作者证明了无耦合算法下策略剖面收敛到Nash均衡的最优速率下界为$\Omega(T^{-1/4})$, 并提出了两种达到该速率(忽略常数和对数因子)的算法.

Sample Complexity Bounds for Stochastic Shortest Path with a Generative Model

Jean Tarbouriech et al.

cs.LG stat.ML

本文研究了在Stochastic Shortest Path (SSP)问题中学习$\epsilon$-optimal policy的样本复杂度. 作者首先在有生成模型(generative model)的设定下推导了样本复杂度的上下界, 并指出当最小成本$c_{\min}=0$时, SSP问题的学习可能变得不可行, 这揭示了其与有限时域(finite-horizon)和折扣(discounted)设定相比的固有难度.

SCRIPT: Implementing an Intelligent Tutoring System for Programming in a German University Context

Alina Deriyeva, Jesper Dannath, Benjamin Paassen

cs.LG cs.AI

本文介绍了一个为德国大学环境设计的Python编程智能辅导系统(ITS), 该系统注重适应性、研究平台功能、与大型语言模型等提示机制的集成, 并符合欧洲数据保护条例等严格监管要求. 文章讨论了该系统的当前状态、未来发展方向以及面临的挑战与机遇.

Univariate Channel Fusion for Multivariate Time Series Classification

Fernando Moro, Vinicius M. A. Souza

cs.LG

本文提出了一种名为 Univariate Channel Fusion (UCF) 的方法来处理多元时间序列分类问题. 该方法通过简单的通道融合策略将多元序列转换为单变量表示, 从而能够使用任何为单变量设计的分类器, 在保证分类性能的同时显著提升了计算效率.

Tabular foundation models for in-context prediction of molecular properties

Karim K. Ben Hicham et al.

cs.LG physics.chem-ph

本文评估了tabular foundation models (TFMs)在分子性质预测任务中的表现, 特别是在数据量有限的场景下. 研究表明, 结合特定的分子表示(如CheMeleon embeddings)可以取得优异的预测性能, 且无需针对特定任务进行微调.

Training Time Prediction for Mixed Precision-based Distributed Training

Minchul Kang et al.

cs.LG cs.AI cs.DC cs.PF

本文针对分布式深度学习中的训练时间预测问题, 提出了一种考虑浮点精度设置的预测方法. 通过实验表明, 该方法在包括混合精度在内的多种设置下, 相比忽略精度因素的方法能显著降低预测误差.

JumpLoRA: Sparse Adapters for Continual Learning in Large Language Models

Alexandra Dragomir et al.

cs.LG cs.AI cs.CL

本文提出了一种名为JumpLoRA的新框架，通过引入JumpReLU门控机制在LoRA模块中自适应地诱导稀疏性，以实现动态参数隔离并减轻任务干扰。该方法与基于LoRA的持续学习方法兼容，实验表明其能有效提升现有方法的性能。

Synthetic data in cryptocurrencies using generative models

André Saimon S. Sousa et al.

cs.LG cs.AI

本文提出了一种基于Conditional Generative Adversarial Networks (CGANs)的方法来生成加密货币价格时间序列的合成数据. 该方法结合了LSTM生成器和MLP判别器, 旨在模拟真实数据的统计特性和时间模式.

Sketching the Readout of Large Language Models for Scalable Data Attribution and Valuation

Yide Ran et al.

cs.LG

本文提出了一种名为RISE的新方法, 用于大规模语言模型(LLMs)的数据归因与估值. 该方法通过聚焦于输出层的"影响热点"并进行压缩投影, 显著降低了存储需求, 实现了对更大规模模型的可扩展分析.

OT on the Map: Quantifying Domain Shifts in Geographic Space

Haoran Zhang et al.

cs.LG

本文提出了一种利用地理信息和Optimal Transport方法计算地理空间域之间距离的策略(GeoSpOT). 实验表明, 该距离能有效预测跨域迁移的难度, 并可指导数据选择和模型部署.

Neuro-Symbolic ODE Discovery with Latent Grammar Flow

Karin Yu, Eleni Chatzi, Georgios Kissas

cs.LG cs.AI cs.CE cs.SC

本文提出了一种名为Latent Grammar Flow (LGF)的神经符号生成框架, 用于从数据中发现ordinary differential equations (ODEs). 该框架将方程嵌入到基于语法的离散潜在空间中, 并利用离散flow模型来递归生成候选方程.

Enhancing AI and Dynamical Subseasonal Forecasts with Probabilistic Bias Correction

Hannah Guan et al.

cs.LG physics.ao-ph stat.ML

本文提出了一种用于改进次季节尺度天气预报的机器学习框架, 通过校正历史概率预报的系统性偏差来提升预报技巧. 该框架在多个领先的预报模型上取得了显著效果, 并在国际实时预报竞赛中表现优异.

Detecting and Suppressing Reward Hacking with Gradient Fingerprints

Songtao Wang et al.

cs.LG cs.CL

本文提出了一种名为GRIFT的方法, 通过分析模型内部计算的梯度来检测强化学习中的reward hacking行为. 该方法在多个可验证推理基准测试中显著优于现有基线, 并能通过整合到微调流程中来提升模型在真实任务上的表现.

Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin

cs.LG cs.AI

本文提出了一种名为HILBERT的跨模态框架，用于从长序列音频-文本数据中学习文档级表示。该方法通过引入互惠双重对比目标和对齐正则化，旨在解决模态间维度不平衡的问题，并在下游分类任务中取得了良好性能。

Beyond Distribution Sharpening: The Importance of Task Rewards

Sarthak Mittal, Leo Gagnon, Guillaume Lajoie

cs.LG cs.AI

本文通过理论分析和实验比较了distribution sharpening与基于task reward的强化学习在模型训练中的作用. 实验表明, 仅进行distribution sharpening带来的性能提升有限, 而引入任务奖励信号能带来更稳健的性能改进.

FL-MHSM: Spatially-adaptive Fusion and Ensemble Learning for Flood-Landslide Multi-Hazard Susceptibility Mapping at Regional Scale

Aswathi Mundayatt, Jaya Sreevalsan-Nair

cs.LG

本文提出了一种用于区域尺度洪水-滑坡多灾害易发性制图(FL-MHSM)的深度学习工作流。该方法结合了空间分区、概率Early Fusion、基于树的Late Fusion基线以及软门控Mixture of Experts模型，旨在捕捉空间异质性与灾害间的相互依赖关系。在两个案例研究中，该集成模型展现了稳健的预测性能，并通过GeoDetector分析提供了对主导影响因子的可解释性洞察。

Evaluating the Progression of Large Language Model Capabilities for Small-Molecule Drug Design

Shriram Chennakesavalu et al.

cs.LG physics.chem-ph

本文通过构建一套化学任务基准, 将分子性质预测、表示转换与设计等任务形式化为强化学习环境, 评估了大型语言模型在药物设计中的能力. 研究发现前沿模型在化学任务上表现提升但仍有不足, 而基于强化学习的后训练能显著缩小模型间的性能差距.

Geometric regularization of autoencoders via observed stochastic dynamics

Sean Hill, Felix X.-F. Ye

cs.LG math.DS math.PR

本文提出了一种通过观测随机动力学对自编码器进行几何正则化的方法. 该方法利用环境协方差矩阵蕴含的切空间信息, 构造了切丛惩罚和逆一致性惩罚, 用于学习非线性坐标图和潜在随机微分方程. 实验表明, 该方法能有效降低动力学模拟的误差.

cs.AI

Discover and Prove: An Open-source Agentic Framework for Hard Mode Automated Theorem Proving in Lean 4 ⭐ 精选

Chengwu Liu et al.

cs.AI cs.CL cs.LO

本文提出了一个名为"Discover And Prove (DAP)"的开源智能体框架，用于解决"Hard Mode"下的自动定理证明问题。该框架通过结合LLM的自然语言推理与显式自我反思来独立发现定理的结论，然后将问题转化为"Easy Mode"供现有证明器处理。作者还发布了两个新的基准测试集MiniF2F-Hard和FIMO-Hard，以促进更严格的评估。DAP在多个基准测试上取得了新的最优结果，并揭示了当前LLM的答案准确率与形式证明器的成功率之间存在巨大差距，凸显了Hard Mode评估的重要性。

DeepER-Med: Advancing Deep Evidence-Based Research in Medicine Through Agentic AI

Zhizheng Wang et al.

cs.AI

本文提出了一个用于医学领域的深度循证研究框架DeepER-Med, 其核心是一个由研究规划、智能体协作和证据合成三个模块组成的可审查工作流. 为了进行现实评估, 还构建了一个基于真实医学研究场景的证据数据集DeepER-MedQA. 评估表明, 该框架在多个标准上优于现有平台, 并在实际临床案例中显示出应用潜力.

GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

Shivendra Agrawal, Bradley Hayes

cs.AI cs.CV cs.HC cs.RO

本文提出了一种名为GIST的多模态知识提取框架, 用于将移动点云转换为带有语义标注的导航拓扑结构. 该框架通过下游任务验证了其在人机交互中的实用性.

Bureaucratic Silences: What the Canadian AI Register Reveals, Omits, and Obscures

Dipto Das et al.

cs.AI cs.CY cs.HC

本文分析了加拿大联邦AI注册表的数据, 指出此类透明度工具并非中性, 而是通过技术性描述构建了AI作为"可靠工具"的本体论, 可能将问责自动化成一种表演性合规.

LACE: Lattice Attention for Cross-thread Exploration

Yang Li et al.

cs.AI

本文提出了LACE框架, 通过改造模型架构实现跨线程注意力, 使并行的推理路径能够在推断过程中共享中间见解并相互纠错. 实验表明, 这种协同探索显著优于标准的并行搜索.

Preregistered Belief Revision Contracts

Saad Alqithami

cs.AI cs.CL cs.LO cs.MA

本文提出了一种名为PBRC的协议层机制, 用于在多智能体系统中规范信念修正过程, 旨在防止因社会性影响导致的错误共识. 该机制通过预注册证据触发器和审计要求来确保信念变更的可执行性与可审计性.

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Jacob Dang, Brian Y. Xie, Omar G. Younis

cs.AI

本文通过两个实验设置, 证明了在AI智能体蒸馏过程中, 不安全的行为偏好可以在语义无关的任务轨迹中隐性地传递. 结果表明, 显式的数据清洗不足以防御此类行为传递.

Bilevel Optimization of Agent Skills via Monte Carlo Tree Search

Chenyi Huang et al.

cs.AI

本文提出了一种使用双层优化框架和Monte Carlo Tree Search来优化LLM agent技能结构的方法。该方法通过外层循环搜索技能结构，内层循环优化组件内容，并在一个Operations Research QA数据集上验证了其有效性。

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Chuyang Wei et al.

cs.AI

本文提出了一个名为Milkyway的自进化agent系统, 用于未来预测任务. 该系统通过利用时序对比产生的内部反馈来更新一个持久的预测工具, 并在两个基准数据集上取得了性能提升.

LLM Reasoning Is Latent, Not the Chain of Thought

Wenshuo Wang

cs.AI

本文主张将大语言模型(LLM)的推理过程视为潜在状态轨迹的形成，而非忠实于表面的思维链(CoT)。作者通过分离并形式化三个竞争性假设，并整合现有证据，认为当前研究应更关注潜在状态动力学。

Structured Abductive-Deductive-Inductive Reasoning for LLMs via Algebraic Invariants

Sankalp Gilda, Shlok Gilda

cs.AI cs.LG cs.LO

本文提出了一种基于代数不变量的符号推理框架, 旨在解决大型语言模型在结构化逻辑推理中的系统性问题. 该框架通过强制执行五个代数不变量(称为Gamma Quintet)来确保推理链的逻辑一致性, 其中最强的"最弱链接界"原则确保结论的可靠性不超过其最弱前提.

KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

Ankit Maloo

cs.AI cs.GT

本文提出了一个名为KWBench的基准测试, 用于评估大型语言模型在无提示情况下识别专业场景中潜在问题的能力. 该基准包含223个源自多个专业领域的任务, 每个任务都编码了一个形式化的博弈论模式, 并要求模型仅从原始数据中识别问题结构, 而非直接执行解决方案.

Stein Variational Black-Box Combinatorial Optimization

Thomas Landais et al.

cs.AI

本文提出了一种基于Stein算子的黑箱组合优化方法, 通过在参数空间中引入粒子间的排斥机制来促进种群分散并探索适应度景观的多个模态. 实验表明该方法在多种基准问题上, 尤其是大规模实例上, 取得了与当前领先方法相当或更优的性能.

Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents

Xing Zhang et al.

cs.AI cs.CL cs.MA

本文提出了一个名为"Experience Compression Spectrum"的统一框架, 将LLM agent中的memory, skills和rules视为沿单一压缩轴(从episodic memory的5-20倍到declarative rules的1000倍以上)分布的点. 该框架揭示了现有系统均固定于特定压缩层级, 缺乏自适应跨层级压缩能力, 并指出了知识生命周期管理等开放问题.

Towards Rigorous Explainability by Feature Attribution

Olivier Létoffé, Xuanxiang Huang, Joao Marques-Silva

cs.AI

本文讨论了在可解释人工智能(XAI)领域, 从非严格的非符号化方法转向使用严格的符号化方法进行特征归因的重要性. 文章以SHAP工具中Shapley值的应用为例, 指出了当前方法在严谨性上的不足, 尤其是在高风险机器学习应用中的潜在问题.

Integrating Graphs, Large Language Models, and Agents: Reasoning and Retrieval

Hamed Jelodar et al.

cs.AI

本文是一篇关于图与大型语言模型(LLM)集成方法的综述。文章系统性地梳理了不同集成策略、图模态和应用领域，旨在为研究者根据任务需求选择合适方法提供实用指南。

Weak-Link Optimization for Multi-Agent Reasoning and Collaboration

Haoyu Bian et al.

cs.AI cs.CL cs.MA

本文提出了一个名为WORC的框架, 用于优化多智能体系统中的"薄弱环节". 它通过元学习定位性能较差的智能体, 并分配更多计算资源来提升整体系统的稳定性和泛化能力.

ReactBench: A Benchmark for Topological Reasoning in MLLMs on Chemical Reaction Diagrams

Qiang Xu et al.

cs.AI

本文提出了一个名为ReactBench的基准测试, 用于评估多模态大语言模型(MLLMs)在化学反应图这类具有复杂拓扑结构的图表上的推理能力. 基准测试包含四个层次的任务维度, 实验表明现有模型在需要整体结构推理的任务上存在显著性能瓶颈.

MEDLEY-BENCH: Scale Buys Evaluation but Not Control in AI Metacognition

Farhad Abtahi et al.

cs.AI

本文提出了一个用于评估AI模型元认知能力的基准测试MEDLEY-BENCH, 该基准将独立推理、自我修订和受社会影响的修订分离开来。研究发现模型规模提升评估能力但不提升控制能力, 且元认知能力并非规模的简单函数。

SocialGrid: A Benchmark for Planning and Social Reasoning in Embodied Multi-Agent Systems

Hikaru Shindo et al.

cs.AI cs.LG cs.MA

本文提出了一个名为SocialGrid的基准测试环境, 用于评估embodied multi-agent系统中LLM的规划与社会推理能力. 该环境通过自动化的失败分析和细粒度指标, 帮助诊断和改进agent在这些复杂任务中的表现.

MARCH: Multi-Agent Radiology Clinical Hierarchy for CT Report Generation

Yi Lin et al.

cs.AI cs.CV

本文提出了一个名为MARCH的多智能体框架, 用于自动化生成3D放射学报告. 该框架通过模拟放射科的专业层级, 利用多个具有不同角色的智能体进行协作, 旨在减少临床幻觉并提高报告的准确性.

Characterising LLM-Generated Competency Questions: a Cross-Domain Empirical Study using Open and Closed Models

Reham Alharbi et al.

cs.AI

本文通过引入一组定量指标, 对多种LLM生成的Competency Questions (CQs) 进行了跨领域、跨模型的系统性比较分析. 实验评估了包括开源和闭源模型在内的多种LLM, 发现其生成表现受具体用例影响, 呈现出不同的生成特征.

Learning to Reason with Insight for Informal Theorem Proving

Yunhe Li et al.

cs.AI cs.CL cs.LG

本文提出了一种针对 informal theorem proving 的框架, 旨在解决大型语言模型在复杂数学问题中缺乏洞察力的问题. 通过构建一个分层数据集和设计渐进式训练策略, 该方法提升了模型在数学推理基准上的表现.

Using Large Language Models and Knowledge Graphs to Improve the Interpretability of Machine Learning Models in Manufacturing

Thomas Bayer et al.

cs.AI

本文提出了一种结合知识图谱(KG)与大型语言模型(LLM)来增强机器学习(ML)模型可解释性的方法. 该方法在制造业环境中进行了评估, 旨在生成用户友好的解释以支持决策.

ASMR-Bench: Auditing for Sabotage in ML Research

Eric Gan et al.

cs.AI

本文提出了一个名为ASMR-Bench的基准测试，用于评估审计者检测机器学习研究代码库中蓄意破坏的能力。该基准包含9个被篡改的代码库，并测试了前沿LLM和人类审计者的检测效果。

cs.IR

vstash: Local-First Hybrid Retrieval with Adaptive Fusion for LLM Agents

Jayson Steffens

cs.IR

本文提出了一个名为 vstash 的本地优先文档记忆系统, 它通过 Reciprocal Rank Fusion (RRF) 和自适应的每查询 IDF 加权, 将向量相似性搜索与全文关键词匹配相结合. 该系统在一个 SQLite 文件中管理所有数据, 并展示了在多个 BEIR 数据集上的检索性能提升, 同时提供了一个生产级的实现框架.

Collaborative Filtering Through Weighted Similarities of User and Item Embeddings

Pedro R. Pires et al.

cs.IR cs.LG

本文提出了一种新颖的集成方法，通过加权相似度框架统一了user-item和item-item推荐策略。该方法使用共享的用户和物品嵌入，简化了架构并提升了效率，在多个数据集上取得了有竞争力的性能。

Learning Behaviorally Grounded Item Embeddings via Personalized Temporal Contexts

Rafael T. Sereicikas et al.

cs.IR cs.LG

本文提出了TAI2Vec模型, 通过个性化地整合时间邻近性来学习物品嵌入. 该方法能区分短期会话与长期兴趣漂移, 在多个数据集上超越了静态基线模型.

BioHiCL: Hierarchical Multi-Label Contrastive Learning for Biomedical Retrieval with MeSH Labels

Mengfei Lan, Lecheng Zheng, Halil Kilicoglu

cs.IR cs.AI

本文提出了一种利用层级化MeSH标注进行多标签对比学习的生物医学检索方法BioHiCL. 该方法旨在更好地建模领域语义和层级关系, 并在多个任务上取得了良好性能.

Rethinking the Necessity of Adaptive Retrieval-Augmented Generation through the Lens of Adaptive Listwise Ranking

Jun Feng et al.

cs.IR cs.AI cs.CL

本文提出了一种名为AdaRankLLM的自适应检索框架，用于重新评估在大型语言模型(LLM)噪声鲁棒性增强背景下自适应检索的必要性。该框架通过一个采用零样本提示和段落丢弃机制的自适应排序器，验证了自适应列表重排名的价值，并引入了一种两阶段渐进式蒸馏范式，使较小的开源LLM也具备精确的列表排序和自适应过滤能力。实验表明，该框架能在显著减少上下文开销的同时，在多数场景下达到最优性能，并揭示了自适应检索的角色转变：对于较弱模型是关键的噪声过滤器，对于较强推理模型则是高性价比的效率优化器。

Sample Is Feature: Beyond Item-Level, Toward Sample-Level Tokens for Unified Large Recommender Models

Shuli Wang et al.

cs.IR

本文提出了一种名为SIF的新方法, 用于统一大型推荐模型. 该方法通过将每个历史原始样本直接编码为序列token, 以解决现有样本信息扩展和模型容量扩展范式中的结构限制. 实验表明该方法在工业数据集上有效并已成功部署.

Intent Propagation Contrastive Collaborative Filtering

Haojie Li et al.

cs.IR

本文提出了一种名为Intent Propagation Contrastive Collaborative Filtering (IPCCF)的算法，用于改进协同过滤中的解耦表示学习。该方法通过设计双螺旋消息传播框架和引入对比学习，旨在更全面地利用图结构信息并为解耦过程提供直接监督。在三个真实数据集上的实验验证了其有效性。

On the Equivalence Between Auto-Regressive Next Token Prediction and Full-Item-Vocabulary Maximum Likelihood Estimation in Generative Recommendation--A Short Note

Yusheng Huang et al.

cs.IR

本文证明了在生成式推荐中, 自回归的下一个token预测与全物品词汇的最大似然估计在数学上是等价的. 这一结果为当前工业界广泛采用的生成式推荐范式提供了理论依据.

Scattered Hypothesis Generation for Open-Ended Event Forecasting

He Chang et al.

cs.IR

本文针对开放事件预测任务, 提出了一种名为SCATTER的强化学习框架, 旨在生成一组既全面又多样的未来事件假设. 该方法通过设计一个结合了有效性、组内多样性和组间多样性的混合奖励函数来优化生成结果. 实验表明, 该方法在多个基准数据集上优于现有基线.

UsefulBench: Towards Decision-Useful Information as a Target for Information Retrieval

Tobias Schimanski et al.

cs.IR cs.CL

本文提出了一个名为UsefulBench的领域特定数据集, 用于区分文本的"相关性"与"实用性". 研究表明, 传统基于相似性的检索方法与相关性更一致, 而LLM系统虽能部分克服此偏差, 但在需要专业知识的领域仍面临挑战.

JFinTEB: Japanese Financial Text Embedding Benchmark

Masahiro Suzuki, Hiroki Sakaji

cs.IR cs.CL

本文介绍了首个专门用于评估日语金融文本嵌入模型的综合性基准JFinTEB. 该基准包含了检索和分类等多种任务, 并公开了数据集和评估框架以促进相关研究.

Beyond One-Size-Fits-All: Adaptive Test-Time Augmentation for Sequential Recommendation

Xibo Li, Liang Zhang

cs.IR

本文针对sequential recommendation中的test-time augmentation (TTA)方法，指出其通用的增强策略存在不足。作者提出了一种基于reinforcement learning的自适应框架AdaTTA，能够为每个用户序列动态选择最优的数据增强算子，并在多个数据集上验证了其有效性。

cs.CL

Applied Explainability for Large Language Models: A Comparative Study

Venkata Abhinandan Kancharla

cs.CL cs.AI cs.LG

本文对三种可解释性方法(Integrated Gradients, Attention Rollout, SHAP)在微调的DistilBERT模型上进行了应用性比较研究. 研究发现基于梯度的归因方法能提供更稳定的解释, 而基于注意力的方法计算效率高但相关性较弱.

Think Multilingual, Not Harder: A Data-Efficient Framework for Teaching Reasoning Models to Code-Switch

Eleanor M. Lin, David Jurgens

cs.CL

本文提出了一个用于教导推理模型进行语码转换的数据高效微调框架. 该框架基于对现有模型中语码转换行为的分析, 通过微调干预来提升模型在推理任务中语码转换的有效性.

Brain Score Tracks Shared Properties of Languages: Evidence from Many Natural Languages and Structured Sequences

Jingnong Qu, Ashvin Ranjan, Shane Steinert-Threlkeld

cs.CL

本文通过训练多种语言模型(LMs)并评估其Brain Score(BS), 发现模型在不同自然语言乃至结构化数据(如人类基因组, Python代码)上的BS表现相似. 这表明BS可能反映了模型提取跨语言通用结构的能力, 而非特指类人语言处理.

PolicyBank: Evolving Policy Understanding for LLM Agents

Jihye Choi et al.

cs.CL cs.AI

本文提出了一种名为PolicyBank的记忆机制, 旨在帮助LLM agent通过交互和测试反馈来演化其对自然语言策略的理解, 以弥合策略规范中的歧义与逻辑鸿沟. 作者还构建了一个包含可控策略鸿沟的系统化测试平台, 实验表明PolicyBank能显著提升agent的策略遵从表现.

Consistency Analysis of Sentiment Predictions using Syntactic & Semantic Context Assessment Summarization (SSAS)

Sharookh Daruwalla et al.

cs.CL cs.AI

本文提出了一个名为SSAS的框架, 用于通过建立上下文来提升大语言模型在情感预测任务中的一致性. 该框架通过分层分类和迭代摘要来生成高质量的提示, 以减少数据噪声和分析方差. 实验表明, SSAS能显著提升数据质量和预测一致性.

Why Fine-Tuning Encourages Hallucinations and How to Fix It

Guy Kaplan et al.

cs.CL cs.AI cs.LG cs.NE

本文探讨了监督微调(SFT)如何加剧大型语言模型的事实性幻觉问题, 并提出了一种基于自蒸馏(self-distillation)的微调方法来缓解此问题. 研究还通过实验分析了幻觉产生的机制, 指出语义表征重叠导致的干扰是主要原因.

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

Yang Wu et al.

cs.CL cs.AI cs.HC cs.LG

本文介绍了一个名为CoLabScience的主动式AI助手，旨在通过上下文感知的及时干预来增强生物医学研究中LLM与人类专家的协作。其核心是PULI框架，它使用强化学习目标来决定在流式科学讨论中干预的时机和方式，并在新构建的BSDD数据集上验证了其有效性。

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Jack Wei Lun Shi et al.

cs.CL cs.AI cs.LG

本文通过基于扰动的归因分析, 比较了不同微调策略(如FFT, LoRA)和模型规模下LLMs在自动代码合规任务中的解释性行为. 研究发现FFT产生的归因模式与参数高效微调方法存在统计差异且更聚焦, 同时模型规模增大会使其发展出特定的解释策略.

DALM: A Domain-Algebraic Language Model via Three-Phase Structured Generation

Chao Li

cs.CL cs.AI

本文提出了一种名为DALM的领域代数语言模型, 通过在三阶段结构化生成过程中施加代数约束来替代传统的无约束token生成. 该框架将语言生成重新定义为在领域格上的结构化去噪, 旨在防止不同领域知识在生成过程中的相互干扰.

LLMs Corrupt Your Documents When You Delegate

Philippe Laban, Tobias Schnabel, Jennifer Neville

cs.CL cs.HC

本文研究了大型语言模型(LLMs)在委托工作流中的可靠性问题。作者通过DELEGATE-52基准测试发现，即使在长工作流中，前沿模型也会导致约25%的文档内容损坏，且代理工具使用无法改善此问题。

GroupDPO: Memory efficient Group-wise Direct Preference Optimization

Jixuan Leng et al.

cs.CL

本文提出了一种内存高效的Group-wise Direct Preference Optimization方法, 通过解耦样本的反向传播来降低内存开销, 从而支持使用更大的组规模进行训练. 实验表明, 利用多个响应进行训练在离线和在线对齐设置中均优于单对训练, 并且加入对正样本的负对数似然项对性能提升和训练稳定性至关重要.

Imperfectly Cooperative Human-AI Interactions: Comparing the Impacts of Human and AI Attributes in Simulated and User Studies

Myke C. Cohen et al.

cs.CL cs.AI cs.CY cs.HC

本文通过模拟实验和用户研究, 比较了人类人格特质与AI设计特性在不完全合作场景中对人机交互的影响. 研究发现, 在真实人类参与的场景中, AI的透明度等属性比人格特质更具影响力.

FD-NL2SQL: Feedback-Driven Clinical NL2SQL that Improves with Use

Suparno Roy Chowdhury et al.

cs.CL

本文提出了一种反馈驱动的临床NL2SQL系统FD-NL2SQL，用于辅助临床医生查询肿瘤学试验数据库。该系统利用LLM分解自然语言问题，检索相似示例并生成SQL，并通过用户编辑和逻辑增强两种反馈机制实现自我改进。

CIG: Measuring Conversational Information Gain in Deliberative Dialogues with Semantic Memory Dynamics

Ming-Bin Chen, Jey Han Lau, Lea Frermann

cs.CL

本文提出了一个用于衡量审议对话中信息增益的框架CIG, 通过建模语义记忆的动态变化来评估每个话语对集体理解主题的贡献. 该方法定义了新颖性、相关性和蕴含范围三个可解释的维度, 并通过实验验证了基于记忆动态的指标比传统启发式方法更能反映人类感知的信息增益.

HyperGVL: Benchmarking and Improving Large Vision-Language Models in Hypergraph Understanding and Reasoning

Yanbin Wei et al.

cs.CL cs.CV

本文提出了首个用于评估大型视觉语言模型在超图理解和推理方面能力的基准测试HyperGVL. 该基准包含大量视觉问答样本, 涵盖了从基础组件计数到复杂NP难问题推理的多种任务, 并研究了不同文本和视觉表示方法的影响.

C-Mining: Unsupervised Discovery of Seeds for Cultural Data Synthesis via Geometric Misalignment

Pufan Zeng et al.

cs.CL

本文提出了一种名为C-Mining的无监督框架，用于从多语言语料库中自动挖掘文化相关的种子数据。该方法利用预训练嵌入空间中文化概念的跨语言几何错位作为量化信号，无需人工或LLM监督即可高效提取文化点，并用于指导合成指令调优数据集。

Preference Estimation via Opponent Modeling in Multi-Agent Negotiation

Yuta Konishi et al.

cs.CL

本文提出了一种整合自然语言信息到结构化贝叶斯对手建模框架中的偏好估计方法. 该方法利用大语言模型从对话中提取定性线索, 并将其转化为概率格式以进行动态信念追踪.

Improving Reasoning Capabilities in Small Models through Mixture-of-Layers Distillation with Stepwise Attention on Key Information

Yao Chen et al.

cs.CL

本文提出了一种新的 Chain-of-Thought (CoT) 蒸馏框架，通过将教师模型在推理过程中对关键信息的渐进式注意力转移给学生模型，来提升小模型的推理能力。该方法还引入了一个 Mixture of Layers 模块来实现动态层对齐，并在多个数学和常识推理数据集上取得了性能提升。

The Metacognitive Monitoring Battery: A Cross-Domain Benchmark for LLM Self-Monitoring

Jon-Paul Cacioli

cs.CL cs.LG

本文介绍了一个用于评估大型语言模型(LLM)元认知监控能力的跨领域行为测试集。该测试集基于心理学框架，通过多个认知领域的任务来测量模型的答案撤回倾向等行为指标。

Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

Zijun Wang et al.

cs.CL

本文提出了一种基于Neuron-Activated Graph Ranking (NAG-based Ranking)的目标导向预训练数据选择方法。该方法通过分析预训练大语言模型中的神经元激活模式来筛选数据，在多个基准测试中取得了优于随机采样和现有基线方法的效果。

GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

Jize Wang et al.

cs.CL cs.AI

本文提出了一个用于评估通用工具智能体(GTA)的分层基准测试GTA-2, 它包含原子工具使用和开放式工作流两个层面. 该基准基于真实用户查询和已部署工具构建, 并通过实验揭示了当前前沿模型在复杂工作流任务上的显著能力瓶颈.

Learning Uncertainty from Sequential Internal Dispersion in Large Language Models

Ponhvoan Srey et al.

cs.CL cs.AI

本文提出了一种名为SIVR的监督幻觉检测框架，用于从大语言模型的内部状态中估计不确定性。该方法通过聚合各层各token的方差特征来学习指示事实错误的时间模式，避免了信息丢失，并在实验中表现优于基线。

Language, Place, and Social Media: Geographic Dialect Alignment in New Zealand

Sidney Wong

cs.CL

本文结合定性分析与计算方法, 研究了新西兰相关 Reddit 社区中地理方言的对齐情况. 研究发现用户普遍将语言与地点关联, 并揭示了基于地点的社区间存在语义变异.

TTL: Test-time Textual Learning for OOD Detection with Pretrained Vision-Language Models

Jinlun Ye et al.

cs.CL cs.CV

本文提出了一种名为Test-time Textual Learning (TTL)的框架，用于提升基于CLIP等vision-language models的out-of-distribution (OOD)检测性能。该方法通过从无标签的测试数据流中动态学习OOD的文本语义，避免了对外部固定OOD标签的依赖，并引入了知识净化和知识库策略来稳定性能。

Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

Kai Wei et al.

cs.CL

本文提出了Skill-RAG框架，通过探测隐藏状态和路由技能来处理检索增强生成中的失败案例。该方法在多个问答基准测试中提升了困难问题的准确率。

MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents

Weiwei Xie et al.

cs.CL

本文提出了MemEvoBench，一个用于评估LLM agents在对抗性记忆注入等场景下长期记忆安全性的基准测试框架。该框架包含多种任务类型，实验表明现有模型在存在偏见的记忆更新下安全性会显著下降。

PIIBench: A Unified Multi-Source Benchmark Corpus for Personally Identifiable Information Detection

Pritesh Jha

cs.CL cs.AI

本文提出了一个用于个人身份信息检测的统一基准语料库PIIBench, 整合了多个来源的数据集并进行了标准化处理. 作者评估了多个现有系统, 结果表明该基准比任何单一数据集都更具挑战性.

A Systematic Study of Training-Free Methods for Trustworthy Large Language Models

Wai Man Si et al.

cs.CL

本文系统性地评估了无需额外训练即可提升大型语言模型可信度的方法. 作者将这些方法按其在推理过程中干预信息流的位置分为输入、内部和输出三个层级, 并分析了它们在可信度、模型效用、鲁棒性和计算开销等方面的权衡与影响.

CHOP: Chunkwise Context-Preserving Framework for RAG on Multi Documents

Hyunseok Park et al.

cs.CL

本文提出了CHOP框架, 通过迭代评估文本块相关性并重构文档来缓解RAG系统中相似文档共存导致的检索混淆问题. 该框架包含生成块签名和保持上下文连贯性的模块, 实验表明其能提升检索排名质量.

Qwen3.5-Omni Technical Report

Qwen Team

cs.CL eess.AS

本文介绍了Qwen3.5-Omni模型，这是一个支持文本、视觉和音频的多模态大模型。它采用了混合专家架构以支持长上下文，并在多项音频和音视频理解基准上取得了先进性能。

CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution

Shidong Yang et al.

cs.CL

本文提出了一个名为 CoEvolve 的 agent-data mutual evolution 框架，用于训练 LLM agents。该方法通过从 rollout trajectories 中提取反馈信号来指导任务合成，并动态更新训练数据分布，从而在多个基准测试上显著提升了 agent 的性能。

Exploring the Capability Boundaries of LLMs in Mastering of Chinese Chouxiang Language

Dianqing Lin et al.

cs.CL

本文针对中文网络亚文化中的抽象话(Chouxiang Language), 构建了一个名为Mouse的专门评测基准, 用于评估大语言模型(LLM)在六项相关NLP任务上的表现. 实验表明, 当前最先进的LLM在多项任务上存在明显局限, 并进一步探讨了其表现不佳的原因及翻译评估中的人机对齐问题.

Disentangling Mathematical Reasoning in LLMs: A Methodological Investigation of Internal Mechanisms

Tanja Baeumel, Josef van Genabith, Simon Ostermann

cs.CL

本文通过 early decoding 等技术, 研究了 LLMs 执行算术运算时的内部机制. 研究发现, 熟练的模型在 attention 和 MLP 模块间存在明确的功能分工.

CiPO: Counterfactual Unlearning for Large Reasoning Models through Iterative Preference Optimization

Junyi Li, Yongqiang Chen, Ningning Ding

cs.CL

本文提出了一种针对大型推理模型的反事实遗忘方法CiPO, 通过迭代偏好优化来干预模型的思维链推理过程。该方法旨在从推理步骤和最终答案中完全移除目标知识, 同时保持模型的整体推理能力。

DiZiNER: Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition

Siun Kim, Hyung-Jin Yoon

cs.CL cs.AI cs.LG

本文提出了一个名为DiZiNER的框架, 通过模拟预标注过程, 利用多个LLM作为标注者和监督者, 分析模型间的分歧来优化任务指令, 从而提升零样本命名实体识别(NER)的性能. 在多个基准测试中取得了显著的性能提升.

How Hypocritical Is Your LLM judge? Listener-Speaker Asymmetries in the Pragmatic Competence of Large Language Models

Judith Sieker, Sina Zarrieß

cs.CL

本文探讨了大型语言模型(LLM)在语用能力(pragmatic competence)中作为听话者(listener)和说话者(speaker)两种角色的表现差异. 研究发现, 模型在评判语用恰当性方面的能力普遍优于其生成恰当语言的能力, 表明这两种能力在当前模型中并未很好地对齐.

MUSCAT: MUltilingual, SCientific ConversATion Benchmark

Supriti Sinhamahapatra et al.

cs.CL

本文提出了一个名为MUSCAT的多语言科学对话基准测试, 用于评估自动语音识别(ASR)系统在处理多语言混合输入、专业术语和语码转换方面的能力. 该基准包含多语言科学论文讨论的对话数据, 并提供了一个超越词错误率(WER)的标准评估框架.

RAGognizer: Hallucination-Aware Fine-Tuning via Detection Head Integration

Fabian Ridder, Laurin Lessel, Malte Schilling

cs.CL cs.LG

本文提出了一种通过集成检测头进行幻觉感知微调的方法, 用于减少检索增强生成(RAG)模型中的幻觉. 该方法在多个基准测试中实现了先进的幻觉检测性能, 同时显著降低了生成过程中的幻觉率.

SCHK-HTC: Sibling Contrastive Learning with Hierarchical Knowledge-Aware Prompt Tuning for Hierarchical Text Classification

Ke Xiong et al.

cs.CL

本文提出了一种名为SCHK-HTC的新方法，用于解决少样本层次文本分类任务中难以区分语义相似兄弟类别的问题。该方法通过层次知识提取和兄弟对比学习机制来增强模型对细微差异的感知能力，并在多个基准数据集上取得了优于现有方法的性能。

AgentV-RL: Scaling Reward Modeling with Agentic Verifier

Jiazheng Zhang et al.

cs.CL cs.AI

本文提出了一个名为Agentic Verifier的框架，将奖励建模转化为一个多轮、工具增强的审议过程。该方法通过引入互补的前向与后向智能体进行双向验证，并在实验中展示了性能提升。

Where does output diversity collapse in post-training?

Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras

cs.CL cs.AI cs.LG

本文研究了语言模型在 post-training 后输出多样性下降的现象。通过分析不同数据构成和训练方法的影响，发现多样性下降主要源于训练数据，而非推理时的生成格式。

Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

Jiaxi Bi et al.

cs.CL cs.LG

本文提出了一种用于大型推理模型并行推理的路径剪枝分类框架, 并引入了一种名为STOP的可学习内部剪枝方法. 实验表明该方法在多种模型规模下均能提升推理效率与准确性.

Stochasticity in Tokenisation Improves Robustness

Sophie Steger et al.

cs.CL

本文研究了在大型语言模型训练中引入随机分词对模型鲁棒性的影响. 通过在不同学习阶段和数据集中进行系统实验, 发现使用随机分词进行预训练和微调能有效提升模型对抗随机和对抗性扰动的能力.

Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures

Yutong Gao et al.

cs.CL cs.AI cs.LG

本文系统综述了大型语言模型(LLM)内在可解释性(intrinsic interpretability)的最新进展, 将现有方法归类为五种设计范式. 文章讨论了该新兴领域的开放挑战与未来研究方向.

Can LLMs Understand the Impact of Trauma? Costs and Benefits of LLMs Coding the Interviews of Firearm Violence Survivors

Jessica H. Zhu et al.

cs.CL cs.AI

本文评估了使用开源大语言模型(LLM)对21位社区枪击暴力幸存者的访谈进行归纳编码的可行性。研究发现，尽管某些模型配置能识别重要编码，但整体相关性较低，且伦理问题导致大量叙事被抹除。

Sentiment Analysis of German Sign Language Fairy Tales

Fabrizio Nunnari, Siddhant Jain, Patrick Gebhard

cs.CL cs.LG

本文构建了一个用于德国手语童话情感分析的数据集和模型. 通过结合文本情感标注与视频动作特征, 训练了一个可解释的模型来从手语视频中预测情感.

On the Rejection Criterion for Proxy-based Test-time Alignment

Ayoub Hammal, Pierre Zweigenbaum, Caio Corro

cs.CL

本文研究了基于代理模型进行测试时对齐的方法, 分析了隐式奖励和微调两种现有方法, 指出它们可归结为从相似的图模型中采样, 主要区别在于拒绝准则的定义. 作者认为基于置信度的准则存在缺陷, 并提出了一种基于保守置信度赌注的新拒绝准则, 实验表明该方法在多个数据集上优于先前工作.

AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency

Max Henning Höth et al.

cs.CL cs.AI cs.LG

本文提出了一种名为AtManRL的方法, 通过可微分的注意力操作来提升大型语言模型(LLM)中思维链(CoT)推理的忠实性. 该方法训练一个加性的注意力掩码来识别对生成正确答案至关重要的推理标记, 并以此作为奖励信号, 结合基于结果的奖励, 在GRPO框架下共同优化模型的正确性和可解释性.

Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations

Yanli Wang et al.

cs.CL cs.AI

本文提出了一种基于大语言模型内部表示而非输出统计的 conformal prediction 框架，用于提升问答任务中的不确定性估计。该方法在分布偏移下表现出比传统文本层面基线更好的有效性-效率权衡。

Optimizing Korean-Centric LLMs via Token Pruning

Hoyeol Kim, Hyeonwoo Kim

cs.CL

本文通过 token pruning 技术对多语言大语言模型进行压缩，专注于韩语 NLP 任务进行评估。实验表明，该方法能有效提升生成稳定性，并在特定任务上改善性能，验证了其在内存受限场景下的优化价值。

BAGEL: Benchmarking Animal Knowledge Expertise in Language Models

Jiacheng Shen et al.

cs.CL cs.AI

本文提出了一个名为BAGEL的基准测试，用于评估语言模型在动物学领域的专业知识。该基准通过闭卷问答形式，衡量模型在无需外部检索的情况下，对动物分类、形态、行为等多方面知识的掌握程度。

SwanNLP at SemEval-2026 Task 5: An LLM-based Framework for Plausibility Scoring in Narrative Word Sense Disambiguation

Deshan Sumanathilaka et al.

cs.CL

本文提出了一个基于LLM的框架, 用于对叙事文本中的同形异义词进行合理性评分. 该方法结合了结构化推理机制, 并探索了微调小参数模型与动态few-shot提示大参数模型的效果.

From Benchmarking to Reasoning: A Dual-Aspect, Large-Scale Evaluation of LLMs on Vietnamese Legal Text

Van-Truong Le

cs.CL cs.AI

本文提出了一个针对越南法律文本的双层面评估框架, 用于评估大型语言模型(LLMs)的性能. 该框架结合了在准确性、可读性和一致性上的基准测试, 以及对模型错误类型的大规模定性分析.

No Universal Courtesy: A Cross-Linguistic, Multi-Model Study of Politeness Effects on LLMs Using the PLUM Corpus

Hitesh Mehta et al.

cs.CL

本文通过一个多语言、多模型的实验，研究了不同礼貌程度对大型语言模型(LLM)响应质量的影响。研究发现，礼貌的影响因语言和模型而异，并非普遍适用。

cs.DS

The Communication Complexity of Pattern Matching with Edits Revisited

Tomasz Kociumaka, Jakob Nogler, Philip Wellnitz

cs.DS

本文改进了Pattern Matching with Edits问题的通信复杂度上界。作者将编码大小优化至$O(n/m \cdot k \log(m|\Sigma|/k))$比特，这匹配了常数字母表下的已知下界，并为报告编辑序列的变体建立了新的紧下界。

Backdoors for Quantified Boolean Formulas

Leif Eriksson et al.

cs.DS

本文研究了Quantified Boolean Formulas (QBF)问题中backdoor（后门）的复杂性。作者证明了即使对于具有常数大小backdoor的公式，QBF问题仍然是PSpace-hard的，并针对某些特定语法类设计了参数化算法。此外，文章引入了enhanced backdoors（增强后门）的概念，以扩展backdoor方法在结构限制下的适用性。

Hardness, Tractability and Density Thresholds of finite Pinwheel Scheduling Variants

Sotiris Kanellopoulos et al.

cs.DS

本文研究了Pinwheel Scheduling的一个有限变体k-Visits问题的计算复杂性。作者证明了2-Visits问题在输入最大重数为2时是强NP完全的，并证明了当不同截止日期的数量为常数时，该问题属于随机多项式时间(RP)。此外，论文还推广了2-Visits的现有正面结果，并探讨了k-Visits问题的密度阈值。

Constant-Factor Approximations for Doubly Constrained Fair k-Center, k-Median and k-Means

Nicole Funk et al.

cs.DS cs.CY cs.LG

本文针对具有双重公平约束的离散k-聚类问题提出了近似算法。对于k-center问题，将近似比改进为4；对于k-median和k-means问题，首次给出了常数因子近似算法。其方法基于线性规划，可将满足多样性中心选择的解转化为满足双重约束的解，并可推广到其他中心选择约束。

Fast and Memory Efficient Multimodal Journey Planning with Delays

Denys Katkalo, Andrii Rohovyi, Toby Walsh

cs.DS

本文提出了一种更高效、更准确的多模式行程规划算法, 用于处理交通延误. 该方法改进了现有算法(如ULTRA, CSA, RAPTOR)的内存使用和计算速度, 并在单目标和多目标搜索中均表现出性能提升, 尤其在大延误场景下扩展性更好.

Parallelizing the branch-and-bound with isomorphism pruning algorithm for classifying orthogonal arrays

Dursun Bulutoglu

cs.DS math.CO

本文提出了一种并行化 branch-and-bound with isomorphism pruning 算法的方法, 并将其应用于正交数组(orthogonal arrays)的分类问题. 该方法在特定参数下实现了线性加速, 并首次完成了对 OA(192, k, 2, 4) 在 k=9,10,11 时的分类.

others

Seeing the Intangible: Survey of Image Classification into High-Level and Abstract Categories

Delfina Sol Martinez Pandiani, Valentina Presutti

cs.CV cs.AI cs.CL cs.CY

本文是一篇关于计算机视觉中高级语义理解与抽象概念图像分类的综述性论文. 它通过多学科分析澄清了该领域对"高级语义"的模糊定义, 并系统回顾了相关任务、挑战及混合AI系统的发展趋势.

Modeling of ASD/TD Children's Behaviors in Interaction with a Virtual Social Robot During a Music Education Program Using Deep Neural Networks

Armin Tandiseh, Morteza Memari, Alireza Taheri

cs.HC cs.AI

本文利用深度神经网络，通过分析儿童与虚拟社交机器人在音乐教育程序中的交互数据，构建了一个行为分析与模拟系统。该系统能够以较高的准确度区分自闭症谱系障碍(ASD)儿童与神经典型(TD)儿童，并能生成逼真的模拟行为序列。

Anthropomorphism and Trust in Human-Large Language Model interactions

Akila Kadambi et al.

cs.HC cs.AI

本文通过实验研究了人类在与大语言模型(LLM)交互时进行拟人化和建立信任的维度。研究发现，模型的温暖度(warmth)和认知共情(cognitive empathy)是预测拟人化感知和信任的关键因素。

Explainable Iterative Data Visualisation Refinement via an LLM Agent

Burak Susam, Tingting Mu

cs.HC cs.AI

本文提出了一种利用LLM agent实现可解释的数据可视化迭代优化的方法. 该系统通过将可视化评估和超参数优化视为语义任务, 自动生成包含定量指标和描述性总结的多方面报告, 并给出可操作的算法配置建议, 以实现高质量可视化图的快速生成.

Acoustic and Facial Markers of Perceived Conversational Success in Spontaneous Speech

Thanushi Withanage, Elizabeth Redcay, Carol Espy-Wilson

cs.HC cs.CL cs.LG

本文分析了自然对话中多模态特征与感知对话质量的关系. 研究发现, 在自发语音中检测到的言语趋同(entrainment)与更高的感知对话成功度相关.

Struggle Premium : How Human Effort and Imperfection Drive Perceived Value in the Age of AI

Nazneen Sultana et al.

cs.HC cs.AI cs.CY

本文通过一项针对70名大学生的调查研究了"奋斗溢价"现象, 即感知到的人类努力如何影响对创意作品价值的判断. 研究发现, 展示创作过程的线索(如视频和时间记录)能显著提升作品被感知的真实性和价值, 这一效应在人类创作和AI生成内容中均存在.

Eco-Bee: A Personalised Multi-Modal Agent for Advancing Student Climate Awareness and Sustainable Behaviour in Campus Ecosystems

Caleb Adu et al.

cs.HC cs.AI

本文提出了一种名为Eco-Bee的个性化多模态智能体，旨在提升学生的气候意识与可持续行为。它整合了大型语言模型和行星边界框架，通过提供可操作的见解和游戏化挑战来促进校园内的行为改变。

Evaluating LLMs as Human Surrogates in Controlled Experiments

Adnan Hoq, Tim Weninger

cs.HC cs.AI cs.CL

本文通过将人类调查数据转化为结构化提示, 直接比较了未经特定任务训练的 LLM 生成响应与人类响应的统计分析结果. 研究发现, LLM 能够复现人类响应中的一些方向性效应, 但在效应大小和调节模式上存在差异.

How people use Copilot for Health

Beatriz Costa-Gomes et al.

cs.HC cs.AI cs.CY

本文通过分析大量与Microsoft Copilot的健康相关对话，构建了一个基于LLM的意图分类法，以研究用户如何利用对话式AI进行健康咨询。研究发现，用户查询集中在个人症状评估、治疗信息及医疗系统导航等方面，且使用模式在设备与时间上存在显著差异。

Automating Crash Diagram Generation Using Vision-Language Models: A Case Study on Multi-Lane Roundabouts

Xiao Lu, Hao Zhen, Jidong J. Yang

cs.HC cs.AI cs.CV cs.SE

本文探索了使用 Vision-Language Models (VLMs) 来自动化从交通事故报告中生成事故示意图。研究针对多车道环岛场景，设计了一套评估框架来测试不同模型的表现，其中 GPT-4o 取得了最佳结果。这项工作展示了生成式 AI 在工程可视化任务中的潜力与当前局限。

Technically Love: The Evolution of Human-AI Romance Discourse on Reddit

Tyler Chang, Jina Huh-Yoo, Afsaneh Razi

cs.HC cs.AI

本文通过分析Reddit平台上关于人机浪漫关系的讨论, 使用topic modeling和时序统计方法研究了公共话语的演变. 研究发现讨论主题从积极的亲密关系转向平台治理和技术问题, 揭示了此类关系话语框架的转变.

Beyond Passive Viewing: A Pilot Study of a Hybrid Learning Platform Augmenting Video Lectures with Conversational AI

Mohammed Abraar et al.

cs.HC cs.AI

本文介绍了一项关于混合学习平台的试点研究, 该平台将实时对话式AI导师与传统视频讲座相结合. 研究通过对照实验初步表明, 这种AI增强模式可能提升学习效果和参与度.

A Comparative Study on the Impact of Traditional Learning and Interactive Learning on Students' Academic Performance and Emotional Well-Being

Siva Raja Sindiramutty

cs.HC cs.AI

本文通过一项随机对照实验，比较了传统教学与使用Kahoot等工具的互动式教学对学生学业表现和情感健康的影响。研究发现互动式学习组在考试成绩和参与度上显著更优，但也指出了潜在的认知负荷问题。

Facial-Expression-Aware Prompting for Empathetic LLM Tutoring

Shuangquan Feng et al.

cs.HC cs.AI

本文探讨了在LLM驱动的辅导系统中, 通过prompt-level集成面部表情信号来增强共情响应, 而无需端到端重新训练. 研究构建了一个模拟辅导环境, 比较了多种基于面部行为单元(Action Unit)估计的方法, 发现基于AU的条件反射能一致地改善对所有辅导模型骨干的共情响应性.

Uncertainty, Vagueness, and Ambiguity in Human-Robot Interaction: Why Conceptualization Matters

Xiaowen Sun et al.

cs.HC cs.AI cs.RO

本文针对人机交互(HRI)领域中对不确定性(uncertainty)、模糊性(vagueness)和歧义性(ambiguity)概念混淆不清的问题，提出了一个统一的概念基础。文章通过词典释义、概念辨析、实例说明，旨在为相关方法的设计与评估提供清晰的术语框架。

MRGEN: A Conceptual Framework for LLM-Powered Mixed Reality Authoring Tools for Education

Mohammed Oussama Seddini et al.

cs.HC cs.AI

本文提出了一个名为MRGEN的概念框架, 旨在利用大型语言模型(LLM)辅助教师为移动设备(如平板电脑和智能手机)创建混合现实(MR)学习活动. 该框架基于一个开源平台构建了原型, 并通过用户研究验证了其能有效减少任务时间并帮助教师进行内容构思和设计.

When the Loop Closes: Architectural Limits of In-Context Isolation, Metacognitive Co-option, and the Two-Target Design Problem in Human-LLM Systems

Z. Cheng, N. Song

cs.HC cs.AI cs.LG

本文通过一个详细的自我民族志案例研究, 探讨了人类与LLM构建的多模态提示工程系统中出现的"闭环崩溃"现象. 研究识别了"上下文污染"和"元认知挪用"等机制, 并提出了物理隔离而非逻辑隔离的系统设计改进方案.

To LLM, or Not to LLM: How Designers and Developers Navigate LLMs as Tools or Teammates

Varad Vishwarupe et al.

cs.HC cs.AI cs.IR cs.LG

本文通过访谈研究探讨了设计师和开发者如何将LLMs定位为工具或协作者, 并分析了这种角色定位如何影响工作流程中的责任归属与组织可接受性. 研究强调了LLM的使用决策是一个在系统设计时出现的社会技术定位问题.

SocialWise: LLM-Agentic Conversation Therapy for Individuals with Autism Spectrum Disorder to Enhance Communication Skills

Albert Tang

cs.HC cs.AI cs.IR cs.MA

本文介绍了一个名为SocialWise的基于浏览器的应用程序，它利用LLM对话代理和RAG知识库为自闭症谱系障碍患者提供对话练习和即时反馈。该系统旨在通过低成本、可扩展的方式帮助用户在日常社交场景中提升沟通技能。

A methodology to rank importance of frequencies and channels in electromyography data with Decision Tree classifiers

Albert A. Nasybullin et al.

eess.SP cs.LG

本文提出了一种基于Decision Tree分类器的方法, 用于从肌电图(EMG)数据中识别最具信息量的频率和通道, 以评估肌肉恢复情况. 该方法通过分析功率谱密度特征, 实现了对休息间隔的可靠分类, 结果表明仅需少量高信息量特征即可获得足够精度.

Taming Asynchronous CPU-GPU Coupling for Frequency-aware Latency Estimation on Mobile Edge

Jiesong Chen et al.

cs.AR cs.AI cs.DC

本文提出了一种名为FLAME的方法, 用于在移动边缘设备上准确估计模型推理延迟. 该方法通过分层建模量化异步CPU-GPU耦合中的并行重叠, 从而在动态电压频率调节(DVFS)环境下实现高效且精确的延迟预测.

AutoFlows++: Hierarchical Message Flow Mining for System on Chip Designs

Bardia Nadimi, Hao Zheng

cs.AR cs.LG cs.SE

本文提出了一个名为AutoFlows++的分层框架，用于从复杂SoC设计的通信轨迹中挖掘消息流。该方法通过局部挖掘和全局挖掘两阶段，提高了流提取的准确性，在合成和真实SoC模型生成的轨迹上验证了其有效性。

Machine learning approaches to uncover the neural mechanisms of motivated behaviour: from ADHD to individual differences in effort and reward sensitivity

Nam Trinh

q-bio.NC cs.LG

本文结合EEG与机器学习方法研究了ADHD的神经机制及个体在努力与奖赏敏感性上的差异. 研究发现, 基于任务态EEG的分类模型表现优于静息态, 并且额顶叶环路在相关认知过程中扮演核心角色.

Photonic AI: A Hybrid Diffractive Holographic Neural System for Passive Optical Real-Time Image Classification

Prakul Sunil Hiremath

cs.AR cs.LG

本文提出了一种用于图像分类的混合衍射全息光学神经网络架构, 将衍射光学神经网络(DONN)与全息干涉学习(HIBL)算子相结合. 该框架将推理过程表述为编码、相位调制、自由空间传播和强度测量的算子组合, 旨在将学习到的表示物理嵌入到结构化光学介质中, 实现被动的、基于波前变换的快速推理.

OverCite: Add citations in LaTeX without leaving the editor

Cheyanne Shariat

cs.DL astro-ph.IM cs.HC cs.IR

本文介绍了一个名为OverCite的开源工具, 它允许用户在LaTeX编辑环境中直接搜索和插入文献引用, 无需离开编辑器. 该工具通过分析句子上下文和占位符来查询学术数据库, 并支持Overleaf和VS Code两种环境.

TopFeaRe: Locating Critical State of Adversarial Resilience for Graphs Regarding Topology-Feature Entanglement

Xinxin Fan et al.

cs.CR cs.LG

本文提出了一种基于复杂动态系统(CDS)均衡点理论的图对抗防御方法, 通过定位图在对抗攻击下的临界弹性状态来增强鲁棒性. 该方法将图对抗扰动建模为动态系统的振荡, 并设计了二维拓扑-特征纠缠函数来表征扰动下的动态变化.

The Synthetic Media Shift: Tracking the Rise, Virality, and Detectability of AI-Generated Multimodal Misinformation

Zacharias Chrysidis, Stefanos-Iordanis Papadopoulos, Symeon Papadopoulos

cs.CR cs.AI cs.MM

本文构建了一个大规模多模态虚假信息数据集CONVEX, 并分析了AI生成内容在传播性、用户参与度和社区共识形成方面的动态。研究发现，尽管AI生成内容获得了不成比例的高传播度，但其传播主要由被动参与驱动，且现有检测器对合成图像的识别性能随时间持续下降。

InfoChess: A Game of Adversarial Inference and a Laboratory for Quantifiable Information Control

Kieran A. Murphy

cs.MA cs.AI cs.IT cs.LG

本文提出了一种名为InfoChess的对称对抗博弈, 其核心目标是竞争性的信息获取而非棋子捕获. 通过引入一系列基于对手建模的启发式智能体和一个强化学习智能体, 作者探索了该游戏的策略空间, 并利用信息论指标分析了博弈过程.

Seeing the imagined: a latent functional alignment in visual imagery decoding from fMRI data

Fabrizio Spera et al.

q-bio.NC cs.AI eess.IV

本文提出了一种latent functional alignment方法, 用于将fMRI数据中的视觉想象(imagery)内容映射到预训练的视觉感知(perception)解码模型DynaDiff的条件空间中. 该方法在Imagery-NSD基准测试中, 通过结合检索增强策略来弥补匹配数据的不足, 从而在多个被试上实现了优于基线模型的语义重建效果.

VeriCWEty: Embedding enabled Line-Level CWE Detection in Verilog

Prithwish Basu Roy et al.

cs.AR cs.AI cs.CR

本文提出了一种基于embedding的bug检测框架, 用于在Verilog硬件描述语言中检测和分类模块级与行级的常见弱点(CWE). 该方法在识别特定CWE和定位行级bug方面取得了较高的精确度.

Zoom Consistency: A Free Confidence Signal in Multi-Step Visual Grounding Pipelines

Keon Kim, Krish Chelikavada

cs.CV cs.AI

本文提出了一种称为"zoom consistency"的免费置信度信号, 用于评估多步视觉定位流程中预测的可靠性. 该信号基于中间预测的几何距离, 实验表明其与预测正确性存在相关性, 并可用于模型路由.

Exascale Multi-Task Graph Foundation Models for Imbalanced, Multi-Fidelity Atomistic Data

Massimiliano Lupo Pasini et al.

cond-mat.mtrl-sci cs.AI

本文提出了一种基于HydraGNN的原子图基础模型工作流，用于材料发现。该模型通过多任务架构联合训练了大规模第一性原理数据集，并实现了对数十亿原子结构的快速筛选与跨下游任务的迁移。

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

Yanda Li et al.

cs.SD cs.AI

本文提出了一种名为 Temporal Contrastive Decoding (TCD) 的训练无关解码方法, 用于缓解大型音频-语言模型(LALMs)中的时间平滑偏差. 该方法通过对比原始输入与经过时间模糊处理的慢路径视图的下一词元对数概率, 在推理时对特定词元进行更新, 从而提高了模型在多个基准测试上的性能.

LinuxArena: A Control Setting for AI Agents in Live Production Software Environments

Tyler Tracy et al.

cs.CR cs.AI cs.SE

本文介绍了LinuxArena，一个用于AI智能体在真实多服务生产环境中直接操作的控制测试平台。该平台包含大量任务，并通过对攻击与监控的评估，验证了其在控制研究中的实用性。

Prompt-Driven Code Summarization: A Systematic Literature Review

Afia Farjana, Zaiyu Cheng, Antonio Mastropaolo

cs.SE cs.LG

本文对基于提示的代码摘要研究进行了系统综述, 分析了不同提示策略(如 few-shot prompting, chain-of-thought reasoning)在大型语言模型(LLMs)中的应用效果. 文章指出了当前研究在评估方法和最佳实践理解上的局限性, 旨在为该领域的未来研究提供指导.

Exploring LLM-based Verilog Code Generation with Data-Efficient Fine-Tuning and Testbench Automation

Mu-Chi Chen et al.

cs.AR cs.AI

本文提出了一种利用多智能体模型自动生成测试平台(testbench)的工作流程, 用于为基于大语言模型(LLM)的Verilog代码生成任务创建高质量的精调数据. 该方法在数据有限的情况下, 使精调模型在规格说明(specification)到Verilog的生成任务上达到了与先进方法相当的性能.

Analyzing Chain of Thought (CoT) Approaches in Control Flow Code Deobfuscation Tasks

Seyedreza Mohseni et al.

cs.SE cs.AI

本文探讨了使用Chain-of-Thought (CoT) prompting来辅助代码反混淆任务。研究聚焦于控制流混淆，并评估了多个大型语言模型，发现CoT方法能显著提升反混淆的质量。

HarmfulSkillBench: How Do Harmful Skills Weaponize Your Agents?

Yukun Jiang et al.

cs.CR cs.AI

本文对基于大型语言模型的智能体生态系统中存在的有害技能进行了首次大规模测量研究, 并构建了首个用于评估智能体在真实场景下抵御有害技能能力的基准测试集 HarmfulSkillBench. 研究发现, 当有害任务通过预安装技能呈现时, 主流模型的拒绝率会显著降低, 揭示了现有智能体安全机制中的潜在风险.

Quantum Search without Global Diffusion

John Burke, Ciaran McGoldrick

quant-ph cs.DS

本文提出了一种无需全局扩散算子的量子搜索方法, 通过递归构造实现了与Grover算法相同的$O(\sqrt{N})$查询复杂度. 该方法要求初始态和目标态在选定的寄存器划分上具有张量积结构, 从而显著降低了非查询部分的电路深度.

One-Shot Generative Flows: Existence and Obstructions

Panos Tsimpos, Daniel Sharp, Youssef Marzouk

stat.ML cs.LG math.PR

本文研究了在端点独立条件下, 用于生成建模的动态测度传输问题. 它探讨了随机过程$X_\bullet$的"直线流"特性, 并证明了其存在性与目标分布的多峰性之间存在根本性矛盾.

(1D) Ordered Tokens Enable Efficient Test-Time Search

Zhitong Gao et al.

cs.CV cs.AI cs.LG

本文探讨了自回归生成模型中token结构对测试时搜索效率的影响. 研究发现, 具有从粗到细结构的1D有序tokenizer比经典的2D网格结构更有利于引导生成.

RelativeFlow: Taming Medical Image Denoising Learning with Noisy Reference

Yuxin Liu et al.

eess.IV cs.AI cs.CV

本文提出了一种名为RelativeFlow的flow matching框架, 用于解决医学图像去噪(MID)中缺乏绝对干净参考图像的"噪声参考"问题. 该方法通过将绝对的噪声到干净的映射分解为相对的更噪声到噪声的映射, 并结合consistent transport和simulation-based velocity field两个组件, 实现了从异质噪声参考中学习, 驱动任意质量水平的输入朝向统一的高质量目标. 在CT和MR图像去噪上的实验表明其性能优于现有方法.

The Crutch or the Ceiling? How Different Generations of LLMs Shape EFL Student Writings

Hengky Susanto et al.

cs.HC cs.AI

本文通过分析ChatGPT发布前后LLMs辅助EFL学生写作的文本, 结合专家评分与量化指标, 研究了不同代际LLMs对学生写作发展的影响. 研究发现更先进的LLMs能提升低水平学习者的评分和词汇多样性, 但过度依赖可能掩盖真实能力, 且AI辅助程度与专家评分呈负相关.

Ragged Paged Attention: A High-Performance and Flexible LLM Inference Kernel for TPU

Jevin Jiang et al.

cs.PF cs.AI cs.LG

本文提出了一种针对TPU的高性能注意力计算核心Ragged Paged Attention (RPA), 旨在优化大语言模型在TPU上的推理效率. 它通过细粒度分片、软件流水线融合和分布感知编译等技术, 在vLLM和SGLang等系统中实现了较高的硬件利用率.

The Semi-Executable Stack: Agentic Software Engineering and the Expanding Scope of SE

Robert Feldt et al.

cs.SE cs.AI

本文提出了"Semi-Executable Stack"这一概念模型，用于分析AI agent驱动的软件工程中，工程对象从纯可执行代码向半可执行制品的扩展。该模型包含六个层次，旨在帮助定位技术贡献或组织转型中的关键环节。

Lossless Compression via Chained Lightweight Neural Predictors with Information Inheritance

Yuriy Kim, Evgeny Belyaev

cs.IT cs.LG

本文提出了一种基于链式轻量级神经网络预测器的无损数据压缩方法. 该方法通过一个由多个最小权重网络组成的链来估计概率, 并引入了信息继承机制以提升压缩效率. 实验表明, 该压缩器在压缩比上接近先进水平, 同时在编解码速度上具有显著优势.

A Q-learning-based QoS-aware multipath routing protocol in IoMT-based wireless body area network

Mehdi Hosseinzadeh et al.

cs.NI cs.AI

本文提出了一种基于Q-learning的QoS感知多路径路由协议QQMR, 用于IoMT无线体域网. 该方法通过数据分类、自适应多级队列和模糊C-means聚类来优化路由决策, 实验表明其在数据包投递率、延迟和能耗方面优于现有方法.

SecureRouter: Encrypted Routing for Efficient Secure Inference

Yukuan Zhang, Mengxin Zheng, Qian Lou

cs.CR cs.AI

本文提出了SecureRouter, 一个用于加速安全Transformer推理的加密路由框架. 它通过加密状态下的输入自适应模型选择来平衡效率与精度, 相比之前的工作显著降低了延迟.

LLMbench: A Comparative Close Reading Workbench for Large Language Models

David M. Berry

cs.CY cs.AI

本文介绍了一个名为LLMbench的浏览器工作台, 用于对大型语言模型(LLM)的输出进行对比细读. 该工具侧重于数字人文的诠释实践, 通过多种可视化方式(如热图, 熵图)和分析模式(如随机变异, 温度梯度)来揭示生成文本的概率结构, 将log-probability数据作为生成式AI模型批判性研究的重要资源.

Verification Modulo Tested Library Contracts

Abhishek Uppar et al.

cs.PL cs.LG cs.LO cs.SE

本文提出了一种针对使用复杂库的客户端程序进行自动化验证的方法, 称为"Verification Modulo Tested Library Contracts". 该方法通过合成满足客户端验证需求且能通过测试引擎检验的库方法契约来实现.

PRIM-cipal components analysis

Tianhao Liu, Daniel Andrés Díaz-Pachón, J. Sunil Rao

stat.ML cs.LG

本文针对无监督学习中的 No Free Lunch Theorems (NFLTs) 进行了探索。在椭圆分布假设下，证明了两种相反的降维策略（保留最大或最小主成分）在特定指标上同等最优，并基于此提出了新的 bump-hunting 算法。

UA-Net: Uncertainty-Aware Network for TRISO Image Semantic Segmentation

Kyle Lucke et al.

cs.CV cs.LG

本文提出了一种用于TRISO燃料显微图像语义分割的深度学习框架UA-Net, 该框架能够分割五个特征区域并生成预测的不确定性图. 模型采用多阶段预训练策略, 并在测试集上取得了较高的分割精度和不确定性检测性能.

ExoNet: Multimodal Deep Learning for TESS Exoplanet Candidate Identification via Phase-Folded Light Curves, Stellar Parameters, and Multi-Head Attention Fusion

Md.Rashadul Islam

astro-ph.EP astro-ph.IM cs.LG

本文提出了一个名为ExoNet的多模态深度学习框架, 用于从TESS数据中识别系外行星候选体. 该模型整合了相位折叠的光变曲线和恒星参数, 并采用了多注意力头融合机制.

Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Yining Hong et al.

cs.SE cs.AI cs.CR

本文研究了为特定领域AI agent提供安全保障的symbolic guardrails方法. 通过系统性地分析现有基准测试, 作者发现大部分策略要求可以通过symbolic guardrails来保证, 且该方法能在不牺牲agent效用的前提下提升安全性与安全性.

CSLE: A Reinforcement Learning Platform for Autonomous Security Management

Kim Hammar

cs.CR cs.AI

本文提出了一个用于自主安全管理的强化学习平台CSLE, 它结合了仿真和模拟系统来缩小理论与实际性能的差距. 作者通过四个用例展示了该平台在近似实际系统中的有效性.

DataCenterGym: A Physics-Grounded Simulator for Multi-Objective Data Center Scheduling

Nilavra Pathak, Samadrita Biswas, Nirmalya Roy

cs.DC cs.AI

本文提出了一个名为DataCenterGym的物理基础仿真环境，用于研究地理分布式数据中心的作业调度问题。该工作还开发了一种分层模型预测控制算法，以在调度中显式地考虑热力学和电力动态。

CLIMB: Controllable Longitudinal Brain Image Generation using Mamba-based Latent Diffusion Model and Gaussian-aligned Autoencoder

Duy-Phuong Dao et al.

cs.CV cs.AI

本文提出了一种名为CLIMB的可控纵向脑图像生成框架。它利用基于state space model的latent diffusion model和一种Gaussian-aligned autoencoder来合成高质量的时序脑部MRI图像。

A Structure-Preserving Graph Neural Solver for Parametric Hyperbolic Conservation Laws

Jiamin Jiang, Shanglin Lv, Jingrun Chen

physics.comp-ph cs.LG math.NA

本文提出了一种用于参数化双曲守恒律的结构保持图神经网络求解器. 它将经典数值方法原理与图神经网络相结合, 通过设计为学习型重构与通量算子来保持局部守恒性等关键性质, 并在超音速流动基准测试中展现了良好的稳定性和精度.

AdaVFM: Adaptive Vision Foundation Models for Edge Intelligence via LLM-Guided Execution

Yiwei Zhao et al.

cs.CV cs.LG

本文提出了一个名为AdaVFM的自适应框架，用于在边缘设备上高效部署语言对齐的视觉基础模型(VFMs)。该框架通过集成神经架构搜索(NAS)和利用云端多模态大语言模型(LLM)进行运行时控制，根据场景上下文和任务复杂度动态调整计算，在保持精度的同时显著提升了效率。

SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding

Keisuke Gomi, Keiji Yanai

cs.CV cs.CL cs.IR cs.LG cs.MM

本文提出了一种基于多模态大语言模型(MLLM)的单编码器方法SIMMER, 用于跨模态的食物图像与食谱文本检索. 该方法通过设计针对食谱结构的提示模板和引入组件感知的数据增强策略, 在Recipe1M数据集上取得了优于现有双编码器方法的性能.

HYPERHEURIST: A Simulated Annealing-Based Control Framework for LLM-Driven Code Generation in Optimized Hardware Design

Shiva Ahir, Prajna Bhat, Alex Doboli

cs.AR cs.AI

本文提出了一个基于模拟退火的控制框架HYPERHEURIST, 用于优化LLM生成的硬件设计代码. 该方法通过分阶段验证和优化, 在保证功能正确性的基础上, 提升了设计在功耗、性能和面积(PPA)方面的表现.

CodeMMR: Bridging Natural Language, Code, and Image for Unified Retrieval

Jiahui Geng et al.

cs.SE cs.AI

本文提出了一个用于评估多模态代码信息检索的基准MMCoIR, 并在此基础上构建了一个统一的检索模型CodeMMR. 该模型通过基于指令的多模态对齐, 将自然语言、代码和图像嵌入到共享语义空间中, 在多个基准上超越了现有基线.

The Price of Paranoia: Robust Risk-Sensitive Cooperation in Non-Stationary Multi-Agent Reinforcement Learning

Deep Kumar Ganguly et al.

cs.GT cs.AI

本文研究了在多智能体强化学习中, 合作均衡在共同学习过程中的脆弱性问题. 作者发现, 标准风险中性学习会导致合作指数级不稳定, 而应用分布鲁棒性反而会加剧这种不稳定性. 他们提出了一种新的算法, 通过将鲁棒性目标对准策略梯度更新的方差而非回报分布, 来扩展对称协调博弈中的合作区域.

SSMamba: A Self-Supervised Hybrid State Space Model for Pathological Image Classification

Enhui Chai et al.

cs.CV cs.AI

本文提出了一种用于病理图像分类的自监督混合状态空间模型SSMamba. 它通过引入三个领域自适应组件来应对跨放大倍率域偏移、局部-全局关系建模不足和细粒度敏感性不够等挑战, 并在多个公开数据集上取得了优于现有方法的结果.

Just Type It in Isabelle! AI Agents Drafting, Mechanizing, and Generalizing from Human Hints

Kevin Kappelmann et al.

cs.LO cs.AI cs.PL

本文研究了在Isabelle中为rank-one polymorphic $\lambda$-calculus项生成完整且最小化类型标注的问题。作者基于前人工作，给出了该问题的元理论描述，并在Isabelle/HOL中进行了形式化验证。研究过程包含了人类与AI代理（LLM驱动）分别进行证明草稿，并由AI代理进行自动形式化的对比实验。

Neuromorphic Parameter Estimation for Power Converter Health Monitoring Using Spiking Neural Networks

Hyeongmeen Baik et al.

cs.NE cs.LG eess.SY

本文提出了一种用于功率转换器健康监测的神经形态参数估计方法, 使用 spiking neural networks (SNNs) 进行边缘推理. 该方法将 spiking 时序处理与物理约束强制执行分离, 通过一个可微分的 ODE solver 提供物理一致的训练, 在保证精度的同时实现了极低的能耗.

NeuroLip: An Event-driven Spatiotemporal Learning Framework for Cross-Scene Lip-Motion-based Visual Speaker Recognition

Junguang Yao et al.

cs.CV cs.AI cs.CR cs.DB cs.LG

本文提出了一种基于事件相机的唇部运动视觉说话人识别框架 NeuroLip, 旨在解决传统帧式相机在捕捉精细唇部动态时面临的运动模糊和动态范围限制问题. 该框架包含时序感知体素编码, 结构感知空间增强器和极性一致性正则化等模块, 并在新构建的数据集 DVSpeaker 上验证了其在跨场景条件下的鲁棒性.

Diffusion Autoencoder for Unsupervised Artifact Restoration in Handheld Fundus Images

Mathumetha Palani et al.

cs.CV cs.AI

本文提出了一种用于手持眼底图像无监督伪影修复的扩散自编码器. 该方法仅使用高质量桌面眼底图像进行训练, 通过结合context encoder与去噪过程来学习语义表征, 以修复未见的手持图像中的多种伪影.

Privacy-Preserving LLMs Routing

Xidong Wu et al.

cs.CR cs.AI

本文提出了一个隐私保护的LLM路由框架PPRoute, 通过设计MPC友好的操作、多步训练算法和一种通信复杂度为$O(1)$的无序Top-k搜索算法，在保证路由质量的同时显著降低了安全多方计算带来的性能开销。

MambaBack: Bridging Local Features and Global Contexts in Whole Slide Image Analysis

Sicheng Chen et al.

cs.CV cs.AI

本文提出了一种用于Whole Slide Image (WSI) 分析的新型混合架构MambaBack, 它结合了Gated CNN和Mamba的优势. 该方法通过Hilbert采样策略和不对称分块设计, 旨在同时捕获局部细胞特征和全局上下文信息, 并在多个数据集上取得了优于现有方法的结果.

Sketch and Text Synergy: Fusing Structural Contours and Descriptive Attributes for Fine-Grained Image Retrieval

Siyuan Wang et al.

cs.CV cs.AI

本文提出了一个结合手绘草图与文本描述进行细粒度图像检索的框架STBIR。该框架通过课程学习增强鲁棒性，并设计了特征空间优化与跨模态对齐机制。实验表明其在基准数据集上优于现有方法。

RefereeBench: Are Video MLLMs Ready to be Multi-Sport Referees

Yichen Xu et al.

cs.CV cs.CL

本文提出了RefereeBench, 这是一个用于评估多模态大语言模型(MLLMs)作为自动体育裁判能力的大规模基准测试. 基准涵盖了11项运动, 包含大量视频和问答对, 测试了模型在犯规识别, 规则推理等多方面的能力. 实验结果表明, 现有模型的表现远未达到可靠裁判的水平, 尤其是在规则应用和时间定位方面存在明显不足.

cuNNQS-SCI: A Fully GPU-Accelerated Framework for High-Performance Configuration Interaction Selection withNeural Network QQantum States

Daran Sun et al.

cs.DC cs.AI cs.CE

本文提出了一种完全基于GPU加速的cuNNQS-SCI框架，用于提升神经网络量子态(NNQS)方法在Selected Configuration Interaction (SCI)计算中的性能。该框架通过分布式去重、专用CUDA内核和GPU内存优化，克服了原有混合架构的瓶颈，在保持化学精度的同时显著提升了计算规模和速度。

Phase Transitions as the Breakdown of Statistical Indistinguishability

Taiyo Narita, Hideyuki Miyahara

cond-mat.stat-mech cs.AI stat.ME

本文从假设检验的角度提出了相变的一种新定义, 将其视为热力学极限下统计不可区分性的破缺. 这一框架不依赖于序参量或具体模型知识, 并将传统方法(如Binder参数)纳入其中. 作为实例, 作者使用无分布的双样本游程检验, 在无需序参量先验知识的情况下, 准确识别了二维Ising模型的临界点.

SegMix:Shuffle-based Feedback Learning for Semantic Segmentation of Pathology Images

Zhiling Yan et al.

cs.CV cs.AI

本文提出了一种基于shuffle的反馈学习方法SegMix, 用于在仅有图像级标签的情况下生成病理图像的语义分割伪掩码. 该方法通过自适应调整图像块(patch)的shuffle策略, 在三个数据集上取得了优于现有方法的结果.

From Intention to Text: AI-Supported Goal Setting in Academic Writing

Yueling Fan, Richard Lee Davis, Olga Viberg

cs.HC cs.AI cs.CL

本文介绍了一个名为WriteFlow的AI语音写作助手, 旨在通过目标导向的交互支持反思性学术写作. 研究发现, 该工具通过支持迭代目标细化、在起草过程中保持目标与文本对齐等方式, 为写作过程中的元认知调节和行动中反思提供了支持.

From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation

Jasper Lu et al.

cs.RO cs.AI

本文提出了一个从真实世界全景图生成高保真仿真场景的生成式框架, 支持通过语义和几何编辑合成多样化的"数字孪生"场景. 该框架结合了高质量物理引擎和真实资产, 可用于交互式操作任务和长视野导航, 实验验证了其仿真保真度与数据扩展对机器人策略泛化的有效性.

Beyond a Single Frame: Multi-Frame Spatially Grounded Reasoning Across Volumetric MRI

Lama Moukheiber et al.

cs.CV cs.AI

本文提出了一个用于评估视觉语言模型在医学影像上进行空间推理的新基准SGMRI-VQA. 该基准基于容积MRI数据, 要求模型进行跨多帧的检测, 定位和描述, 并通过微调实验表明空间监督能有效提升模型的定位性能.

Breaking the Training Barrier of Billion-Parameter Universal Machine Learning Interatomic Potentials

Yuanchang Zhou et al.

cs.DC cs.LG

本文提出了一种用于训练大规模通用机器学习原子间势能模型的高效分布式框架. 该框架通过硬件感知优化, 在百亿参数规模下实现了极高的并行效率, 将训练时间从数周缩短至数小时.

Robust Multispectral Semantic Segmentation under Missing or Full Modalities via Structured Latent Projection

Irem Ulku, Erdem Akagündüz, Ömer Özgür Tanrıöver

cs.CV cs.AI

本文提出了一种名为CBC-SLP的多模态遥感图像语义分割模型，旨在处理模态缺失或完整的情况。该方法通过结构化潜在投影，将特征分解为共享和模态特定的部分，以保持互补信息并提升鲁棒性。

UniEditBench: A Unified and Cost-Effective Benchmark for Image and Video Editing via Distilled MLLMs

Lifan Jiang et al.

cs.CV cs.AI

本文提出了一个用于图像和视频编辑的统一评测基准 UniEditBench，它支持基于重建和指令驱动的方法。为了降低评估成本，作者通过知识蒸馏将大型多模态模型压缩为轻量级评估器，实验表明其与人类判断具有良好的一致性。

Online Trading as a Secretary Problem Variant

Xujin Chen et al.

math.OC cs.DS

本文研究了经典secretary problem的一个在线交易变体(SPVT), 从中间人的视角出发, 其目标是在卖家和$n$个买家依次随机到达时, 通过即时决策最大化最终持有物品的agent的出价. 文章提出了针对两种竞争比(strong和weak)定义的在线算法, 并给出了相应的竞争比上界和下界.

Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation

Nicolò Pagan et al.

cs.SI cs.AI cs.CL cs.CY cs.MA

本文通过模拟实验研究了基于LLM的内容推荐系统在不同提示策略下的偏见模式。研究发现，极化现象在所有配置中被放大，毒性处理在不同提示下呈现反转，且情感偏见普遍为负面。不同LLM提供商在偏见表现上存在显著差异，其中GPT-4o Mini的行为最一致。

A Case Study on the Impact of Anonymization Along the RAG Pipeline

Andreea-Elena Bodea, Stephen Meisenbacher, Florian Matthes

cs.CR cs.CL

本文通过案例研究, 实证分析了在RAG(Retrieval-Augmented Generation)流程的不同阶段(数据集与生成答案)进行匿名化对隐私-效用权衡的影响. 结果表明, 匿名化的实施位置会带来不同的权衡结果, 凸显了在RAG中考虑隐私风险缓解措施部署位置的重要性.

Topology-Driven Fusion of nnU-Net and MedNeXt for Accurate Brain Tumor Segmentation on Sub-Saharan Africa Dataset

Prabin Bohara et al.

eess.IV cs.CV cs.LG

本文针对低收入和中等收入国家脑肿瘤自动分割的挑战, 提出了一种结合拓扑精炼模块的方法. 该方法在nnU-Net和MedNeXt等模型的基础上, 利用额外数据预训练并在目标数据集上微调, 以提升在低质量MRI图像上的分割性能.

From Vulnerable Data Subjects to Vulnerabilizing Data Practices: Navigating the Protection Paradox in AI-Based Analyses of Platformized Lives

Delfina S. Martinez Pandiani et al.

cs.CY cs.AI cs.CV cs.HC

本文探讨了在平台化生活背景下，数据实践如何主动构建脆弱性，而非将其视为数据主体的静态属性。通过一个AI for Social Good案例，揭示了旨在保护脆弱主体的数据驱动努力可能导致的"保护悖论"，并提出了一个反思性伦理协议来指导相关研究。

Discovering quantum phenomena with Interpretable Machine Learning

Paulin de Schoulepnikoff et al.

quant-ph cond-mat.stat-mech cs.LG

本文提出了一种结合变分自编码器与符号方法的可解释机器学习框架, 用于从无标签量子数据中自动发现物理规律. 该框架在多种量子数据集上得到验证, 并揭示了一些新的物理现象.

Neurosymbolic Repo-level Code Localization

Xiufeng Xu et al.

cs.SE cs.AI

本文针对代码定位任务中模型过度依赖关键词匹配而非结构推理的问题, 提出了一个诊断性基准KA-LogicQuery和一个名为LogicLoc的新型框架. 该框架结合了大型语言模型(LLM)与Datalog的逻辑推理, 通过提取程序事实、合成并验证Datalog程序来实现精确且可验证的代码定位.

Safe Deep Reinforcement Learning for Building Heating Control and Demand-side Flexibility

Colin Jüni et al.

eess.SY cs.AI

本文提出了一种用于建筑供暖控制与需求侧灵活性的安全深度强化学习框架. 该框架基于深度确定性策略梯度算法, 并引入了一个实时自适应安全过滤器, 以确保在提供灵活性时满足操作约束.

Driving Assistance System for Ambulances to Minimise the Vibrations in Patient Cabin

Abdulaziz Aldegheishem et al.

cs.HC cs.CY cs.LG

本文提出了一种用于救护车的驾驶辅助系统, 旨在减少患者舱内的振动. 该系统通过传感器节点测量振动, 结合GPS数据, 利用人工神经网络(ANN)对路线进行分类和评估, 以在时间与振动水平之间进行权衡, 推荐最优路线.

A Wasserstein Geometric Framework for Hebbian Plasticity

Ulrich Tan

math.OC cs.LG math.PR

本文提出了一个基于Wasserstein几何的Hebbian可塑性理论框架, 将记忆状态建模为概率测度, 并通过Wasserstein最小化运动来描述其演化. 该框架将经典学习规则统一为几何投影, 并建立了连续时间极限的存在性.

Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Rohit Sinha et al.

cs.CV cs.AI

本文提出了一个名为"Mind's Eye"的视觉认知基准测试, 用于评估多模态大语言模型(MLLMs)在视觉抽象、关系和转换任务上的能力. 测试结果显示, 当前MLLMs的表现远低于人类水平, 揭示了其在视觉空间推理方面的局限性.

AST: Adaptive, Seamless, and Training-Free Precise Speech Editing

Sihan Lv et al.

cs.SD cs.AI

本文提出了一种无需训练的自适应语音编辑框架AST, 通过潜在重组和自适应弱因子引导技术, 在保持说话人身份和声学上下文的同时, 实现了对特定语音片段的精确编辑与风格修改. 该方法在引入的新基准数据集上取得了优异的性能, 显著提升了时间一致性和编辑质量.

LLMSniffer: Detecting LLM-Generated Code via GraphCodeBERT and Supervised Contrastive Learning

Mahir Labib Dihan, Abir Muhtasim

cs.SE cs.CL

本文提出了一种名为LLMSniffer的检测框架, 用于区分AI生成代码与人类编写代码. 该框架通过结合GraphCodeBERT, 监督对比学习以及代码注释移除预处理, 在两个基准数据集上取得了优于先前基线的检测准确率.

Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

Sai Srinivas Kancheti et al.

cs.CV cs.AI

本文通过实验发现, 在视觉空间推理任务中, Chain-of-Thought (CoT) 提示方法会损害多模态大语言模型的性能. 研究揭示了模型存在严重的捷径学习问题, 并会在图像缺失时根据文本先验产生幻觉.

Towards Universal Convergence of Backward Error in Linear System Solvers

Michał Dereziński, Yuji Nakatsukasa, Elizaveta Rebrova

math.NA cs.DS cs.LG math.OC

本文研究了线性系统求解器中的后向误差收敛问题. 作者证明了对于正半定线性系统, Richardson迭代具有与条件数无关的$1/k$后向误差收敛率, 并提出了基于Krylov子空间最小化后向误差的MINBERR算法, 实现了更快的$O(1/k^2)$收敛和$O(n^2/\sqrt{\epsilon})$复杂度.

Early Detection of Acute Myeloid Leukemia (AML) Using YOLOv12 Deep Learning Model

Enas E. Ahmed, Salah A. Aly, Mayar Moner

cs.CV cs.AI cs.LG

本文应用YOLOv12深度学习模型对急性髓系白血病(AML)细胞进行多分类. 通过结合基于细胞和细胞核特征的分割方法, 并使用Hue通道和Otsu阈值技术进行图像预处理, 实验表明基于细胞分割的YOLOv12模型在验证集和测试集上均达到了99.3%的最高准确率.

Stylistic-STORM (ST-STORM) : Perceiving the Semantic Nature of Appearance

Hamed Ouattara et al.

cs.CV cs.AI cs.LG stat.ML

本文提出了一种名为ST-STORM的混合自监督学习框架，旨在将图像的外观（风格）作为独立的语义模态从内容中解耦出来。该框架通过两个分离的潜在流分别处理内容和风格信息，并在多个视觉任务上验证了其有效性。

Robust Synchronisation for Federated Learning in The Face of Correlated Device Failure

Stefan Behfar, Richard Mortier

cs.DC cs.AI

本文提出了一种名为Availability-Weighted PSP (AW-PSP)的节点采样协议，用于解决联邦学习中设备可用性与数据分布相关导致的采样偏差问题。该方法通过动态调整采样概率，结合实时预测和历史数据，提升了系统在异构环境下的鲁棒性和公平性。

Dual-Modal Lung Cancer AI: Interpretable Radiology and Microscopy with Clinical Risk Integration

Baramee Sukumal, Aueaphum Aueawatthanaphisut

eess.IV cs.AI cs.CV

本文提出了一种融合CT影像学与H&E组织病理学的双模态AI框架, 用于肺癌诊断与亚型分类. 该系统结合了临床元数据, 并应用多种可解释性AI技术来提供视觉解释, 实验结果显示其具有较高的诊断性能.

Reckoning with the Political Economy of AI: Avoiding Decoys in Pursuit of Accountability

Janet Vertesi et al.

cs.CY cs.AI

本文从传播学、科学技术研究和社会经济学的交叉视角，分析了“AI项目”作为一项构建世界、维系权力与财富网络的工程。作者识别了五种看似批判实则共谋的“诱饵”现象，并主张要实现有意义的公平与问责，必须直面AI背后的物质政治经济学。

The Relic Condition: When Published Scholarship Becomes Material for Its Own Replacement

Lin Deng, Chang-bo Liu

cs.ET cs.AI cs.CY

本文探讨了一种从已发表文献中提取学者推理系统并将其转化为大型语言模型约束的方法, 创建了所谓的"学者机器人". 这些机器人在专家评估下展示了执行学术任务的能力, 作者由此提出了"遗物条件"的概念, 即学术发表可能成为其自身功能替代的原材料.

SWNet: A Cross-Spectral Network for Camouflaged Weed Detection

Henry O. Velesaca, Luigi Miranda, Angel D. Sappa

cs.CV cs.AI

本文提出了一种名为SWNet的双模态端到端跨光谱网络, 用于在密集农业环境中检测伪装杂草. 该网络利用Pyramid Vision Transformer v2主干捕获长程依赖, 并通过Bimodal Gated Fusion Module动态融合可见光与近红外信息, 在Weeds-Banana数据集上取得了优于现有方法的分割效果.

ChemGraph-XANES: An Agentic Framework for XANES Simulation and Analysis

Vitor F. Grizzi et al.

cond-mat.mtrl-sci cs.AI physics.chem-ph

本文提出了一个名为ChemGraph-XANES的自动化框架，用于XANES模拟与分析。该框架整合了从任务描述到数据管理的多个步骤，并利用LLM agent进行流程编排，旨在提高计算光谱学工作流的可重复性和可扩展性。

AIFIND: Artifact-Aware Interpreting Fine-Grained Alignment for Incremental Face Forgery Detection

Hao Wang et al.

cs.CV cs.AI

本文提出了一种用于增量人脸伪造检测的方法AIFIND, 它利用语义锚点来稳定特征空间. 该方法通过Artifact-Probe Attention机制将视觉特征与稳定的语义锚点对齐, 并在多个增量协议上验证了其有效性.

"Taking Stock at FAccT": Using Participatory Design to Co-Create a Vision for the Fairness, Accountability and Transparency Community

Shiran Dudy, Jan Simson, Yanan Long

cs.HC cs.AI cs.CY

本文报告了一项在ACM FAccT会议上进行的大规模参与式设计(PD)过程, 旨在促进会议治理的反思. 该过程结合了线下工作坊、异步在线投票和报告撰写, 让参与者共同塑造会议议程. 这项工作是将参与式设计应用于审视AI社会影响的学术论坛的早期实例.

A Two-Stage, Object-Centric Deep Learning Framework for Robust Exam Cheating Detection

Van-Truong Le, Le-Khanh Nguyen, Trong-Doanh Nguyen

cs.CV cs.AI

本文提出了一种用于考试作弊检测的两阶段深度学习框架. 该框架结合了目标检测(YOLOv8n)和行为分类(RexNet-150)技术, 在整合数据集上取得了较高的性能指标.

Adaptive multi-fidelity optimization with fast learning rates

Come Fiegel, Victor Gabillon, Michal Valko

stat.ML cs.LG

本文研究了在有限预算下优化局部光滑函数的 multi-fidelity 优化问题. 提出的 Kometo 算法无需预知函数光滑性和保真度假设, 即可达到接近理论下界的性能.

Do Vision-Language Models Truly Perform Vision Reasoning? A Rigorous Study of the Modality Gap

Yige Xu et al.

cs.CV cs.CL

本文通过构建CrossMath基准测试, 系统评估了vision-language models (VLMs)的跨模态推理能力. 研究发现, 当前VLMs的推理主要依赖于文本模态, 视觉信息的引入反而可能降低性能.

Information Router for Mitigating Modality Dominance in Vision-Language Models

Seulgi Kim, Mohit Prabhushankar, Ghassan AlRegib

cs.CV cs.LG

本文提出了一种名为MoIR的多模态信息路由器, 旨在缓解视觉语言模型(VLMs)中的模态主导问题. 该方法通过在融合前显式地减少模态间的信息差异, 而非仅调整attention, 从而提升了模型在模态退化情况下的鲁棒性和性能.

VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

Xiangbo Gao et al.

cs.CV cs.AI cs.CL

本文提出了一个用于通用视频编辑与视觉效果的综合性基准 VEFX-Bench. 它包含一个大规模人工标注的数据集 VEFX-Dataset, 一个专门用于视频编辑质量评估的奖励模型 VEFX-Reward, 以及一个用于标准化系统比较的基准测试集.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others