Horizon 每日速递 - 2026-06-28

从 88 条内容中筛选出 15 条重要资讯。

自回归玻尔兹曼生成器 ⭐️ 8.0/10
误差条件神经求解器用于 PDE ⭐️ 8.0/10
LLM 集成受共享错误上限限制 ⭐️ 8.0/10
提示注入削弱 LLM 简历筛选公平性 ⭐️ 8.0/10
SBI 加速流行病模型贝叶斯校准 ⭐️ 8.0/10
E-TTS 将测试时扩展引入机器人操作 ⭐️ 8.0/10
OmniAct 统一规划、记忆与故障恢复 ⭐️ 8.0/10
AI 裸化内容转向普通人 ⭐️ 8.0/10
协作对话的层级分析框架 ⭐️ 8.0/10
BINEVAL 将大模型评估拆成二元问题 ⭐️ 8.0/10
用于稀疏强化学习的 VLM 引导奖励塑形 ⭐️ 8.0/10
GPT-5.6 发布：Sol、Terra 与 Luna ⭐️ 8.0/10
DSpark 提升 DeepSeek V4 推理速度 ⭐️ 8.0/10
用于认知护理的语言数字孪生 ⭐️ 7.0/10
PEEU 提升小型图形界面代理规划能力 ⭐️ 7.0/10

自回归玻尔兹曼生成器 ⭐️ 8.0/10

这篇论文提出了 Autoregressive Boltzmann Generators（ArBG），一种用于分子系统平衡采样的自回归框架，不再依赖传统的基于流的 Boltzmann Generator 设计。论文还给出了一个名为 Robin 的可迁移模型，参数规模为 1.32 亿，并报告其在 8 残基系统上的零样本能量误差 E-W₂ 降低了 60% 以上。 Boltzmann Generators 旨在快速生成彼此不相关的平衡样本，这对统计物理和分子模拟工作流非常重要。如果 ArBG 真的比基于 normalizing flow 的方法更具可扩展性和表达能力，它可能会改善更大、更复杂分子体系（例如肽）的采样效果。作者认为，基于 normalizing flow 的现代 BG 存在权衡：离散时间流会受到严格可逆性约束的限制，而连续时间流的似然计算可能很昂贵。ArBG 被定位为一种自回归替代方案，它绕开了流模型的拓扑约束，支持推理时的顺序干预，并旨在借助在大语言模型中已被证明有效的架构来提升可扩展性。

arxiv · Danyal Rehman, Charlie B. Tan, Yoshua Bengio, Avishek Joey Bose, Alexander Tong · 6月25日 17:58

背景: Boltzmann Generators 是用于分子系统的生成模型，目标是直接从描述统计力学平衡行为的 Boltzmann 分布中采样。最初的 BG 思路把深度学习、精确似然和重要性采样修正结合起来，从而高效生成无偏的平衡样本。normalizing flow 是 BG 常用的基础结构，因为它既能做可处理的密度估计，也能做采样，但其架构约束会限制灵活性。像 Chignolin 这样的肽系统常被用作基准，检验这类模型能否处理更复杂的分子构象。

参考链接

标签: #machine learning, #molecular simulation, #generative models, #autoregressive models, #scientific computing

误差条件神经求解器用于 PDE ⭐️ 8.0/10

这篇论文提出了误差条件神经求解器（ENS），它在每次迭代时将 PDE 残差场直接输入网络，而不是把残差最小化作为优化目标。论文报告称，这种设计在四类 PDE 上都提升了重建精度，在湍流 Kolmogorov 流上最高可提升 10 倍。这挑战了物理信息和混合式 PDE 求解器中的一个常见假设：残差越小就一定意味着解越准确。若该方法被进一步验证，它可能为需要在分布偏移下泛化的科学机器学习模型提供一种更快、更稳定的替代方案。作者从理论和实验两方面指出，在病态系统中，最小化残差并不一定能可靠地代表重建精度。ENS 改为从自身误差的空间结构中学习更新策略，因此可以避免基于梯度下降或 Gauss-Newton 的混合方法带来的计算开销和不稳定性。

arxiv · Haina Jiang, Liam Wang, Peng-Chen Chen, Min Seop Kwak, Seungryong Kim, Brian Bell, Jeong Joon Park · 6月25日 17:56

背景: 神经代理模型是一类机器学习模型，训练目标是近似从 PDE 参数到 PDE 解的映射，从而比传统求解器更快地给出结果。物理信息方法和混合方法则试图通过显式利用 PDE 残差来提高精度，残差用于衡量候选解满足方程的程度。病态系统属于困难情形，输入的微小变化或数值误差都可能导致解发生很大变化，因此基于优化的方法往往不够可靠。

参考链接

标签: #scientific machine learning, #PDE solvers, #neural surrogates, #numerical optimization, #physics-informed learning

LLM 集成受共享错误上限限制 ⭐️ 8.0/10

这篇论文提出，路由、投票、级联、融合和 mixture-of-agents 等多模型方法的收益受一个名为 beta 的共享失败率上限约束；如果系统必须返回某一个模型的答案，那么准确率不可能超过 1 减去 beta。论文还表明，平均两两错误相关系数 rho 无法刻画这种最坏情况共失败，并给出了基于 Clopper-Pearson 的有限样本上界估计方法。这很重要，因为许多 LLM 系统默认“把多个模型组合起来”就能持续提高准确率，但论文指出，真正决定收益的是模型是否会在不同问题上出错，而不仅仅是平均相关性低不低。它会直接影响路由器、投票系统和智能体集成方案能否稳定超越单个最佳模型。作者对来自 21 家提供商的 67 个模型进行了分析，发现即使使用基于四分相关系数校准的单因子高斯 copula，仍然会低估“所有模型都答错”的尾部概率；在开放式数学任务上，观测到的 beta 为 0.052，而完整 67 模型 copula 估计为 0.023，约低估了 2.5 倍。论文还在执行评分的代码任务以及将 GPQA-Diamond 从选择题改成自由回答时观察到类似共失败现象，其中自由回答的 beta 升至 0.127，说明答案形式会重新打开失败尾部。

arxiv · Josef Chen · 6月25日 17:06

背景: LLM 集成通常通过路由、投票、级联或 mixture-of-agents 等方式，把多个模型的输出组合起来，以提高可靠性。关键问题在于，这些模型的错误是否足够“互补”，还是会在同样的难题上一起出错。论文重点讨论 beta，也就是“所有模型在同一个问题上都答错”的比例，因为它决定了任何只返回一个模型答案的策略能提升到什么程度。论文还提到常见的两两相关性指标 rho，并指出它不足以预测最坏情况下的共享失败率。

参考链接

标签: #LLM ensembles, #mixture-of-agents, #model routing, #error correlation, #AI evaluation

提示注入削弱 LLM 简历筛选公平性 ⭐️ 8.0/10

一篇关于自动化简历筛选的新论文表明，当只有少数候选人使用时，微妙的提示注入可以提升申请者的排名，并且在候选人简历质量较为一致时效果更明显。随着更多人开始使用这种方法，其优势会迅速减弱，但在候选人质量差异较大的情况下，仍可能扭曲排序结果。这很重要，因为基于 LLM 的招聘系统正越来越多地用于筛选候选人，而这项研究揭示了一条现实可行的操纵路径，可能破坏公平性。研究表明，这类系统在“操纵很少见、也更难被发现”时最脆弱，这对雇主、求职者和平台设计者都很重要。论文将这里的提示注入定义为一种微妙的自我宣传文本，它并不增加任何新的资格信息，而是专门用来影响 LLM 的评估结果。实验显示出明显的非线性特征：在低操纵环境中效果最好，随着更多候选人注入而减弱，并且仍可能让低质量候选人排在更强候选人之前。

arxiv · Preet Baxi, Jiannan Xu, Jane Yi Jiang, Stefanus Jasin · 6月25日 17:04

背景: 提示注入是一类已知的 LLM 安全问题，即通过编写特定文本来把模型从原本任务上带偏。在招聘场景中，简历筛选系统会使用 LLM 对申请者排序，因此哪怕很小的措辞变化也可能影响结果。当排序模型对说服性语言过于敏感，而不是只关注与岗位相关的资格时，就会引发公平性担忧。

参考链接

标签: #prompt injection, #LLM safety, #algorithmic hiring, #fairness, #social impact

SBI 加速流行病模型贝叶斯校准 ⭐️ 8.0/10

这篇论文将基于神经后验估计的模拟式推断（SBI）与 Markov chain Monte Carlo（MCMC）进行比较，用于基于德国 2020 年的重症监护病房（ICU）占用数据对一个机理性 SECIR COVID-19 模型做贝叶斯校准。研究同时测试了 31 天推断窗口和一个更困难的 201 天重建问题，后者包含多个传播变化点。结果表明，SBI 可以比 MCMC 更快地给出后验估计和预测检验，同时保持有用的准确性，这对需要重复进行近实时疫情分析的场景很重要。对于需要频繁重新校准模型、且时间窗口很紧的公共卫生团队来说，这种方法具有吸引力。在 31 天窗口中，SBI 在后验分布上与 MCMC 高度一致，并且能很好地重现观测到的 ICU 轨迹；在 201 天情形下，尽管不确定性更高，SBI 仍保留了主要的后验结构。论文报告称，31 天问题上 SBI 在单张 GPU 上约需 60 到 70 秒，而 MCMC 约需 1000 秒；201 天问题上 SBI 平均约 157 秒，而 MCMC 超过 19,000 秒。

arxiv · Alina Bazarova, Johann Fredrik Jadebeck, Henrik Zunker, Carolina J. Klett-Tammen, Torben Heinsohn, Wolfgang Wiechert, Katharina Noeh, Stefan Kesselheim · 6月25日 17:03

背景: 机理性流行病模型通过若干“舱室”描述疾病在易感、暴露、感染和康复等人群之间的传播，SECIR 就是一种更复杂的扩展舱室模型。贝叶斯校准是指根据数据估计模型中的不确定参数，从而得到后验分布，而不是只给出一个最佳拟合值。MCMC 通常是这类任务的标准方法，但对于大型非线性模型或需要反复推断的场景往往很慢。模拟式推断则会学习从模拟数据到参数后验的直接映射，因此在训练完成后可以显著降低运行时间。

参考链接

标签: #simulation-based inference, #Bayesian inference, #epidemiological modeling, #MCMC, #COVID-19

E-TTS 将测试时扩展引入机器人操作 ⭐️ 8.0/10

E-TTS 提出了一种模块化、即插即用的具身测试时扩展框架，用于机器人操作，并把推理扩展与动作扩展统一起来。论文还引入了基于视觉-语言验证器的历史感知迭代优化，并报告在无需额外专家数据或重新训练的情况下，仿真最高提升 33.14%，真实场景最高提升 26.62%。这很重要，因为它直面具身智能中的两个实际瓶颈：如何扩展推理能力，以及如何在长时序机器人任务中有效利用历史信息。若这些结果具有更广泛的适用性，该框架可能提升不同基础视觉-语言-动作模型的机器人表现，并减少针对特定任务的重新训练需求。 E-TTS 通过成对方式对推理-动作候选进行联合采样和打分，再把历史缓冲区中的上下文输入推理与动作验证器。与传统开环测试时扩展方法不同，它在采样过程中生成反馈，形成闭环迭代优化；作者还在 4 个基准、6 个环境、3 种实体形态和 4 个基础 VLA 模型上进行了评测。

arxiv · Wen Ye, Peiyan Li, Tingyu Yuan, Yuan Xu, Xiangnan Wu, Chaoyang Zhao, Jing Liu, Nianfeng Liu, Yan Huang, Liang Wang · 6月25日 16:50

背景: 测试时扩展指的是在推理阶段投入更多计算来提升模型输出，而不是重新训练模型。在具身智能中，这一点尤其重要，因为机器人必须基于当前看到的内容以及任务先前发生的事情来连续做决策。视觉-语言-动作模型把感知、语言理解和控制结合在一起，因此很适合操作任务，但也更容易暴露出长时序规划方面的挑战。

参考链接

标签: #embodied AI, #robotics, #test-time scaling, #robotic manipulation, #vision-language models

OmniAct 统一规划、记忆与故障恢复 ⭐️ 8.0/10

这篇论文提出了 OmniAct，这是一个面向持续型具身智能体的层次化异步框架，将多模态语义规划器、自适应分层记忆和异步视觉抢占引擎整合在一起。作者在两个机器人平台和四个 IoT 设备上进行了 40 个真实世界长时程任务测试，结果显示端到端成功率提升、在 10 万以上交互 token 下保持接近平坦的 token 增长，并将中等规模开源模型的表现提升到接近闭源专有模型的水平。这项工作同时针对具身智能中的三个核心瓶颈：统一的赛博-物理动作规划、不会随时间失控膨胀的记忆，以及对物理执行失败的自动检测。如果这一框架得到进一步验证，它可能会让需要 API、IoT 设备、导航和操作协同工作的长时间运行机器人与智能体系统更可靠。 OmniAct 明确把规划、记忆和验证分开，而不是依赖一个单体模型。它的记忆模块采用事件边界驱动压缩，以实现次线性的上下文增长；验证模块则旨在在执行过程中闭合语义反馈回路，而不是以开环方式运行策略。

arxiv · Junhao Shi, Zezheng Huai, Siyin Wang, Jia Chen, Yubang Wang, Zhaoye Fei, Hechang Chen, Jingjing Gong, Xipeng Qiu, Yu-Gang Jiang · 6月25日 16:36

背景: 具身智能体是指在物理世界中行动的 AI 系统，通常通过机器人、导航系统或联网设备来完成任务。文中“赛博”指 API、IoT 服务等数字工具，“物理”则指机器人的操作和移动等动作。长时程任务之所以困难，是因为智能体必须记住早先发生的事情、在合适时机选择合适技能，并及时发现哪里出错了。VLM、VLA 和各类智能体框架分别解决了其中一部分问题，但论文认为它们通常是作为彼此分离的组件来构建的。

参考链接

标签: #embodied agents, #robotics, #multimodal AI, #agent architectures, #long-horizon planning

AI 裸化内容转向普通人 ⭐️ 8.0/10

这篇论文对 4chan 上的 AI 裸化活动进行了大规模研究，识别出 24,105 件合成的非自愿性露骨图像内容。研究发现，如今非名人目标已占受害者的 55.8%，而 Stable Diffusion 系列和 Wan 等开源模型在生成中占据核心地位。这项研究表明，AI 裸化已经不再主要是针对名人的滥用问题，而是越来越多地伤害到用户身边的普通人。它凸显了平台治理、技术防护和受害者保护措施在整个 AI 生态中的紧迫性。这一生态依靠数以千计共享的微调模型和易于获取的教程维持运转，这降低了新生产者的门槛。论文还指出，少数高度活跃的生产者推动了社区的大部分产出和互动，其中最高产者生成了 780 件内容。

arxiv · Chi Cui, Yixin Wu, Yang Zhang · 6月25日 16:21

背景: AI 裸化是指利用生成式模型，为真实人物制作合成的非自愿性露骨影像。以往研究主要关注专门的裸化平台和模型仓库，发现常见目标多为女性名人。这篇论文则把研究范围扩展到一个匿名社区，在这里此类内容被主动索取、生成和交换。

参考链接

标签: #AI safety, #content abuse, #generative models, #online communities, #privacy

协作对话的层级分析框架 ⭐️ 8.0/10

这篇 arXiv 论文提出了一个用于分析协作问题解决对话的概念框架，重点关注人类-AI 和多智能体协作场景。论文引入了一个双层编码方案，将认知与非认知问题解决和元认知调节机制结合起来，并在九个数据集上进行了评估。随着 AI 系统承担越来越多自主和协作角色，研究者需要更好的方法来衡量的不只是任务结果，还有协作本身的质量。这个框架有助于区分表层交互与更深层的协作式问题解决，并可用于人类-AI 和多智能体研究。论文认为，现有分析方法忽略了重要的调节行为，因此将元认知调节作为判断更深层协作的关键区分因素。它在九个数据集上的验证表明，这套编码方案旨在跨领域泛化，而不只是适用于单一任务类型。

arxiv · Zhengyuan Liu, Stella Xin Yin, Min-Yen Kan, Nancy F. Chen · 6月25日 16:20

背景: 协作式问题解决通常不只是交换信息；参与者还会在合作过程中进行计划、监控和评估。本文中的元认知调节指的是那些帮助群体或智能体协同解决问题的监督性过程。人类-AI 协作和多智能体系统都是能通过对话观察参与者是否真正协同、还是只是在轮流发言的场景。

参考链接

标签: #human-AI collaboration, #dialogue analysis, #multi-agent systems, #collaborative problem solving, #metacognition

BINEVAL 将大模型评估拆成二元问题 ⭐️ 8.0/10

这篇论文提出了 BINEVAL，一种可解释的大模型评估框架，它把评估标准拆解为原子级的二元问题，并将答案汇总成多维度分数。论文还展示了这些问题级反馈可以用于迭代改进提示词，既能优化评估提示，也能优化生成提示。大模型评估仍然是一个关键瓶颈，因为人工评测又慢又贵，而许多自动裁判给出的分数又难以解释。BINEVAL 让评估过程更透明、更可操作，有助于研究者排查错误、更可靠地比较模型，并在不额外训练的情况下改进提示词。 BINEVAL 先用一个元提示生成细粒度的评估问题，再让大模型针对每个输出独立回答这些问题。论文报告称，它在 SummEval、Topical-Chat 和 QAGS 上与 UniEval、G-Eval 等强基线持平或更优，尤其在事实一致性任务上表现突出；同时它更贴近人工评分分布，并减轻了常见的“天花板效应”。

arxiv · Sangwoo Cho, Kushal Chawla, Pengshan Cai, Zefang Liu, Chenyang Zhu, Shi-Xiong Zhang, Sambit Sahu · 6月25日 16:14

背景: 大模型评估是指对摘要、对话回复或生成文本等输出进行打分。传统的词法指标往往不能很好反映开放式生成中的人工判断，因此新的方法开始用大模型充当裁判，但这类整体式分数通常不够透明，也不容易排查问题。像 QAGS 这样的基于问答的事实性方法，会通过检查针对源文本和输出文本生成的问题答案是否一致来判断一致性。BINEVAL 在此基础上进一步扩展，形成一个更通用、可解释、还能用于提示词优化的框架。

参考链接

标签: #LLM evaluation, #NLP, #interpretability, #prompt optimization, #factual consistency

用于稀疏强化学习的 VLM 引导奖励塑形 ⭐️ 8.0/10

这篇论文提出了 VLM-PBRS，一个直接利用视觉语言模型对图像对偏好来学习势函数的框架。它使用轻量级 VLM 生成偏好标签，在不改变最优策略集合的前提下，提升稀疏奖励强化学习的效果。稀疏奖励强化学习一直很难，因为智能体在探索过程中几乎得不到反馈，而普通的奖励塑形还可能导致奖励黑客。该方法用 VLM 自动生成 PBRS 信号，在减少人工设计奖励的同时保持策略不变性，这对机器人和其他长时序任务很有价值。该方法基于 PBRS，其理论目标是保持最优策略集合不变，并通过成对的 VLM 偏好而不是人工启发式来学习势函数。作者在 Meta-World 和 Franka Kitchen 上进行了实验，并指出当使用更小、更便宜的模型时，VLM 标签准确率与样本效率提升之间存在权衡。

arxiv · Henrik Müller, Daniel Kudenko · 6月25日 15:45

背景: 在强化学习中，稀疏奖励意味着智能体往往只有在一次成功回合结束时才得到有用信号，这会让探索变得低效。奖励塑形会增加辅助反馈来帮助学习，但如果设计不当，就可能扭曲任务并鼓励非预期行为。基于势的奖励塑形是一种经典方法，因为它以保持最优策略集合不变的方式加入塑形信号。视觉语言模型可以比较图像并表达偏好，而这篇论文把这种偏好当作学习塑形势函数的弱监督来源。

参考链接

标签: #reinforcement learning, #reward shaping, #vision-language models, #sparse rewards, #policy preservation

GPT-5.6 发布：Sol、Terra 与 Luna ⭐️ 8.0/10

OpenAI 预览发布了 GPT-5.6 系列，包含 Sol、Terra 和 Luna 三款模型。此次发布同时公布了基准测试表现、分级安全防护，以及面向首批合作伙伴的有限访问和政府审核流程。这很重要，因为前沿模型的发布不再只看原始能力，安全控制和访问治理正成为产品的一部分。它也表明，政府可能越来越多地影响最先进 AI 模型的发布方式以及使用对象。 Sol 是面向前沿推理和长周期智能体任务的旗舰模型，Terra 是平衡型日常模型，Luna 则是速度最快、成本最低的版本。OpenAI 表示 Sol 在 Terminal-Bench 2.1、GeneBench v1 和 ExploitBench 上表现突出，但尚未跨过公司设定的关键网络安全风险阈值，因此仍保留更强的防护措施。

rss · BestBlogs.dev · 6月27日 15:30

背景: GPT-5.6 被描述为一个模型家族，而不是单一模型，这让 OpenAI 可以针对不同用户提供不同的性能与成本组合。在这里，“前沿”指的是当前能力边界上的最先进模型，“智能体任务”则是指模型需要在一段时间内执行多步操作的工作。文章还把安全栈描述为分层防护，包括拒答、实时分类器和账号审查等措施。

参考链接

标签: #AI, #LLM, #GPT-5.6, #model release, #AI safety

DSpark 提升 DeepSeek V4 推理速度 ⭐️ 8.0/10

DeepSeek 与北京大学联合发布了 DSpark，这是一种用于 V4 的投机解码框架，用半自回归草稿和动态调度替代了 MTP-1。文中称其在生产环境中让 V4-Flash 和 V4-Pro 的单用户生成速度提升了 60%–85%。这是一项有实际价值的服务端优化，因为更快的推理会直接改善大语言模型部署中的延迟、吞吐量和用户体验。如此幅度的提升有助于降低算力成本压力，也让高并发模型服务更可行。 DSpark 在并行骨干后加入了一个轻量级串行模块，也就是 Markov head，用极低的 0.2%–1.3% 延迟开销补充序列信息。它还结合置信度头、STS 校准和硬件感知调度器，在负载变化时动态调整验证长度，避免固定长度验证造成算力浪费。

rss · BestBlogs.dev · 6月27日 15:21

背景: 投机解码是一种常见的大语言模型加速方法，它先由更便宜的草稿模型提出候选 token，再由目标模型进行验证。其核心难点在于如何平衡草稿质量、并行性和验证开销，因为草稿太差或验证太重都可能抵消加速效果。半自回归草稿是一种折中方案，它试图在保持并行生成的同时保留部分 token 顺序信息。动态调度则是一种服务端技术，会根据当前负载调整执行方式，而不是使用固定的验证策略。

参考链接

标签: #DeepSeek, #speculative decoding, #LLM inference, #model serving, #AI optimization

用于认知护理的语言数字孪生 ⭐️ 7.0/10

这篇论文提出了一种面向老年认知评估的语言数字孪生框架，利用 LLMs 结合文体特征和上下文元数据来模拟对话行为。论文还引入了一个多头条件变分自编码器（cVAE），用于评估重建质量并预测 MoCA 等认知评分。这项工作有望把日常语言模式变成一种更可扩展、侵入性更低的健康信号，而不必完全依赖正式临床测评。若得到进一步验证，它可能帮助更早发现轻度认知障碍，并支持老年护理场景中的持续监测。在 I-CONECT 数据集上的实验中，该数字孪生保留了身份特定特征，其重建误差和 MoCA 预测误差与真实数据相当。论文还指出它优于基线 GPT 生成回复，但这仍然只是早期研究结果，尚未成为经过临床验证的系统。

arxiv · Mohammad Mehdi Hosseini, Mohammad H. Mahoor, Hiroko H. Dodge · 6月25日 17:45

背景: 数字孪生是一种虚拟模型，旨在尽可能映射真实的人、系统或过程，从而更有效地进行分析和预测。在医疗领域，数字孪生常被视为支持个性化医疗、治疗优化和疾病预防的一种方式。MoCA，即蒙特利尔认知评估，是一种用于检测轻度认知障碍的筛查工具，而轻度认知障碍可能是后续认知衰退的早期信号。

参考链接

标签: #LLMs, #digital twins, #healthcare AI, #cognitive assessment, #elderly care

PEEU 提升小型图形界面代理规划能力 ⭐️ 7.0/10

这篇论文提出了 PEEU（规划经验探索与利用）方法，将自主环境探索与事后经验结合起来，为多模态网页和图形界面代理构造严格对齐的高层规划训练数据。论文还提出了 TDHAF（任务分解层次分析框架），用于研究低、中、高三个任务粒度上的组合泛化。这很重要，因为小型开源多模态大模型比闭源商业模型更便宜，也更有隐私优势，但它们通常在规划能力和跨网站泛化方面较弱。如果这种方法有效，可能会提升需要把复杂任务拆解为可靠行动方案的实际图形界面代理。作者指出，高层任务训练带来的分布外泛化能力更强，而仅掌握底层原子技能并不能保证具备优秀的规划能力。在真实世界基准测试中，他们的 7B 模型取得了 30.6% 的准确率，超过了更大的 Qwen2.5-VL-32B，说明利用事后生成的高层任务对小型多模态大模型尤其有价值。

arxiv · Tianyi Men, Zhuoran Jin, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao · 6月25日 17:44

背景: 多模态网页代理是指能够同时理解文本和界面视觉元素、代替用户操作软件或网站的系统。任务规划负责把用户目标拆解为一系列可执行动作，这对于重复性或长程图形界面任务尤其重要。组合泛化是指模型能否把已学到的技能以新的方式组合起来，从而处理之前没有见过的任务。

参考链接

标签: #GUI agents, #multimodal LLMs, #task planning, #web agents, #generalization