• 首页
  • 世界杯官网
  • 世界杯赛程
  • 世界杯积分榜
  • 世界杯直播
  • 世界杯最新消息
  • 2026世界杯直播app
  • 2026世界杯直播app你的位置:2026年世界杯中国官网 > 2026世界杯直播app > 2026年世界杯官网 CASCADE: 让Agent在部署任务流中进行在线训戒学习

    2026年世界杯官网 CASCADE: 让Agent在部署任务流中进行在线训戒学习

    发布日期:2026-05-25 02:48    点击次数:136

    2026年世界杯官网 CASCADE: 让Agent在部署任务流中进行在线训戒学习

    本文作家来自伦敦大学学院、吉林大学和伦敦国王学院。本文第一作家为吉林大学博士生郭念念源,伦敦大学学院汪军教师为论文临了作家。指点教师还包括伦敦国王学院杜雅丽副教师、吉林大学陈贺昌探讨员与常毅教师。

    当 LLM Agent 投入果真应用后,它濒临的不再是一次性的静态测试集,而是捏续到来的任务流。

    每一次器具调用、代码奉行、网页搜索或任务完成,皆会产生响应:得胜照旧失败?把柄是否充分?器具是否选对?这些部署阶段当然产生的信号,能否反过来匡助 Agent 变得更好?

    探讨团队的最新使命建议了部署时学习(Deployment-Time Learning,DTL),并进一步建议 CASCADE。它的中枢不是肤浅累积训戒,而是让 Agent 在在线任务流中学会接收训戒:濒临刻下任务,应该参考畴前哪一次交互,才能作念出更好的决议?

    论文标题:CASCADE: Case-Based Continual Adaptation for Large Language Models During Deploymen

    探讨配景

    现在 Agent 训戒学习的联系使命中,常见设联盟莫有两类:

    第一类连续传统机器学习范式:系统先在熟谙集上学习,举例微调模子、优化教唆词、构建回顾库或手段库,然后在测试集上评估。

    第二类则留意驱动时学习,即系统在并吞个数据集上先学习多轮,然后不雅测其性能栽植。

    这些设定皆具有探讨价值,但果真部署还包含一个蹙迫维度:技术。在果真系统中,任务是按限定到来的。Agent 不成提前看到畴昔任务,也不成搪塞回到畴前重作念某个肯求。每一步既是一次做事,亦然一次响应蚁集;刻下接收不仅影响刻下任务效果,也可能影响后续计谋。

    因此,CASCADE 将部署时学习界说为一个在线学习问题。在第 t 步,Agent 不雅察到一个查询,生成谜底或活动轨迹,环境复返得胜 / 失败的二值响应。Agent 的主义不再仅仅优化单个任务,而是提高扫数这个词部署序列上的恒久得胜率;等价地说,是镌汰在线学习中的缺憾(Regret)。这一设定更接近工业系统中的捏续做事过程,也为评估 Agent 的部署得当才气提供了明晰神气化。

    基于案例的部署时学习:CASCADE

    在部署时学习的设定下,基座模子保捏固定,永诀其参数进行在线更新。学习发生在 Agent 的外围组件中,尤其是回顾和检索机制。CASCADE 以基于案例的推理(Case-Based Reasoning,CBR)为底层框架。当新任务到来时,系统从历史案例库中检索联系得胜案例,将其行动高下文提供给 LLM,再根据环境响应决定是否保留新的案例。这一过程包括四个方式:

    1. 检索(Retrieve):从握住增长的案例库中检索候选案例;

    2. 复用(Reuse):将案例行动高下文,赞成 LLM 科罚刻下查询;

    3. 修改(Revise):生成最终谜底或活动轨迹;

    4. 保存(Retain):若是环境响应为得胜,则将刻下交互保存为新的案例。

    在这个 4R 轮回中,CASCADE 的枢纽在于:它将 “检索哪个案例” 建模为高下文赌博机(Contextual Bandit)问题,从而杀青检索过程中的探索 - 运用权衡。在每个技术步,刻下查询是高下文,候选案例是可接收的动作。Agent 接收某个案例后,LLM 基于该案例生奏凯果,环境复返得胜或失败响应。检索器随后运用该响应更新计谋,在后续任务中更好地权衡运用与探索。

    换言之,CASCADE 学习的是一个在线检索计谋:它运用部署过程中不雅察到的奖励信号,判断哪些案例在给定的任务中更灵验。针对这一场景,本文建议了 Neural-LinLogUCB 算法。它使用 Transformer 建模查询与案例之间的交互示意,并通过线性头进行不细目性臆想,从而适配二值响应下的高下文赌博机学习。

    从表面上看,CASCADE 将全体缺憾明白为两部分:

    1. 遮蔽差距:案例库是否仍是包含迷漫联系的历史训戒;

    快乐彩app2026世界杯中国官方下载

    2. 检索缺憾:在已有候选案例中,检索计谋是否选中了最灵验的案例。

    跟着部署过程捏续进行,2026年世界杯官网得胜案例缓缓被保存到案例库中,由遮蔽不及带来的亏损会镌汰;同期,检索器通过二值响应更新,渐渐减少接收空幻案例带来的检索缺憾。在合理假定下,CASCADE 不错得到完好憾学习保证。

    因此,CASCADE 不仅仅一个回顾模块,而是一个面向部署任务流的原则化在线训戒学习框架。

    部署时学习基准测试:DTLBench

    为了系统评估部署时学习才气,论文构建了 DTLBench。该基准包含 16 个任务,遮蔽医疗、法律、金融、智能运维、编程、具身决议、信息检索等界限,并包含单轮任务和多轮任务。

    单轮任务包括医疗会诊、药物推选、科室转诊、急诊分诊、法律罪名量度、刑罚量度、金融意图路由、金融热诚分析、根因分析、日记故障会诊、Text-to-SQL。

    多轮任务包括经典的 ALFWorld、ScienceWorld,以及两个更接近果真应用的场景:基于网页的深度搜索和电子健康纪录上的复杂表格推理。

    在 DTLBench 中,每个任务皆被组织为在线查询序列。Agent 必须按限定处理样本,只可运用仍是发生的历史交互和响应。这一区别使得部署步上的得胜率成为中枢评估主义。

    主要推行效果

    在 12 个单轮任务上,使用 Qwen3-32B 行动底座模子时,零样本教唆的平均得胜率为 48.33%,非参数基线 NP-CBR 达到 63.76%,CASCADE 进一步栽植到 66.68%。这一效果标明,案例复用自身仍是或者带来清醒收益;在此基础上,运用在线响应学习检索计谋,不错进一步栽植部署序列上的恒久线路。

    与基于参数更新的基线 REINFORCE+LoRA 比较,CASCADE 在 12 个单轮任务中的 9 个任务上获得更好效果,并在其余任务上线路接近。同期,CASCADE 不需要更新底座 LLM 参数,学习过程显存低于 4GB,合乎在更轻量的部署条款下驱动。

    论文还考证了 CASCADE 对不同底座模子限制的适用性。在 Qwen3-4B、8B、14B、32B 上,CASCADE 在大遍及诞生中均能带来褂讪栽植。关于黑盒模子 gemini-2.0-flash,CASCADE 相同适用,在可评估的 9 个任务上将平均得胜率栽植到 72.58%,高于零样本教唆的 56.58% 和 NP-CBR 的 70.68%。

    这些效果证实,部署时学习并毋庸须依赖对 LLM 参数的走访。关于基于 API 做事的黑盒模子,或者不合乎粗俗微调的工业系统,CASCADE 提供了一种通过 Agent 外围组件进行捏续得当的门道。

    在 ALFWorld 上,CASCADE 将得胜率从 NP-CBR 的 62.01% 栽植到 67.43%;在 ScienceWorld 上,从 59.36% 栽植到 66.84%。将 CASCADE 插入 ReAct 框架后,也能进一步栽植 Agent 在多轮环境中的任务完成率。

    在基于网页的深度搜索中,Agent 需要多轮调用土产货 RAG 器具或及时网页搜索器具完成多跳问答。引入部署时学习后,CASCADE 在土产货 RAG 和及时网页搜索诞生下均带来清醒栽植。

    在电子健康纪录表格推理任务中,Agent 需要通过 API 查询数据库并生成代码。零样本教唆得胜率为 20.75%,NP-CBR 为 44.02%,CASCADE 进一步达到 55.76%,同期减少了平均调试轮数。

    小结

    CASCADE 试图复兴一个在 LLM Agent 部署中越来越蹙迫的问题:当任务捏续到来、响应握住产生,而底座模子参数保捏固定时,Agent 如安在果真交互过程中进行学习?

    本文的中枢孝敬不错玄虚为三点:

    1. 建议部署时学习,将 LLM Agent 的部署阶段神气化为无参数更新的在线训戒学习;

    2. 建议 CASCADE,通过基于案例的推理与高下文赌博机学习杀青原则化的部署时学习框架;

    3. 构建 DTLBench,在 16 个跨界限任务上评估 Agent 在在线任务序列中的恒久线路。

    从这个角度看,CASCADE 的要点不在于从头讲明 “训戒灵验”2026年世界杯官网,而在于进一步建议:部署过程自身不错被建模、评测和优化。跟着 Agent 系统投入更怒放、更长程、更依赖器具的应用场景,如安在果真任务流中运用响应进行褂讪学习,可能会成为大模子部署后的一个蹙迫探讨主义。



    Powered by 2026年世界杯中国官网 @2013-2022 RSS地图 HTML地图

    czblgj.com备案号 备案号: 

    技术支持:®世界杯 RSS地图 HTML地图