企业AI的“规矩”难题:死记硬背行不通了
企业里总有一套看不见的“规矩”——比如报销怎么批、故障单谁来处理、请假流程走几步。这些规矩被写进系统代码,变成自动化规则。当员工点下某个按钮,系统就会按规矩触发一连串操作,比如分配工程师、发通知、计时……这种连锁反应,研究里叫“级联”。
问题是:AI能学会预测这些反应吗?传统做法是让它看大量历史记录,背下规律。但企业规矩会变,新老板上任可能全改。AI背得再熟,也可能一夜过时。ServiceNow与Mila研究院的研究提出一个新思路:与其让AI死记硬背,不如教会它“查手册”。
企业系统的两个特殊之处
企业系统有两个关键特征,让传统AI方法容易失效。
第一,规则不是固定的。管理员可以随时修改流程、打补丁、新增审批链。三个月前的系统和今天可能行为完全不同,但底层平台没变。这意味着靠历史数据训练的AI会逐渐“过期”。
第二,规则是公开可读的。业务规则、工作流、SLA条款都存储为明确的结构化记录,系统管理员能看,AI原则上也能查。这带来一个更聪明的可能:需要时直接查,而不是背下来。
基于此,研究团队提出“企业发现智能体”——一种不依赖记忆、而是实时查阅当前规则的AI。它像新员工入职先读规章手册,再做决定。
一场公平的AI考试:CascadeBench
为了测试这个想法,研究团队设计了专门的测评基准 CascadeBench。它的任务是:给定系统当前状态和一个操作,预测哪些字段会发生变化。
CascadeBench 的关键设计是“防作弊”:所有数据库结构都是合成的,AI不可能在预训练中见过;每道题附带完整上下文,但可选择隐藏业务规则,以测试推理能力;评分只关注有业务意义的变化,忽略时间戳等无关信息。
难度分为三层: - 模式决定型:变化由数据库结构决定,比如新建用户默认“激活”。 - 规则组合型:需串联多条规则,比如改故障单优先级触发分配、计时、通知等。 - 执行推断型:取决于系统内部执行顺序,比如两条规则同时改同一字段,谁生效由调度逻辑决定,无法从配置中得知。
整个数据集基于真实ServiceNow实例执行生成,涵盖六个行业、三种规模,共27,243条验证样本。
三种AI策略同台竞技
研究测试了三种AI策略:
- 提示基线:直接用预训练模型预测,不训练、不查规则。相当于新人靠常识猜流程。
- 学习型世界模型:用历史数据微调模型,把规则“背”进参数里。相当于老员工凭经验做事。
- 企业发现智能体:不微调,但能实时查询当前规则。相当于员工每次做事前先查手册。
发现智能体采用“推理+行动”(ReAct)架构:先思考该查什么,调用工具获取信息,再推理下一步,最多允许15次查询。
测试模型包括Claude Opus 4.6、GPT-5、Gemini 3 Pro等前沿模型,以及Qwen、Gemma等开源模型。
发现智能体的优势:在变化中保持准确
实验结果揭示三个关键发现:
第一,规则信息至关重要。当规则被隐藏,所有模型表现都很差(IoU约9–16);一旦提供规则,得分跃升至38–61。微调仅带来小幅提升,说明死记硬背效果有限。
第二,微调模型在新环境会“露馅”。在训练过的场景中,微调模型表现极佳(如Gemma达91.6 IoU),但在CascadeBench上回落至40左右,优势几乎消失。这说明它学的是特定数据的规律,而非通用推理能力。
第三,发现智能体在陌生环境更稳健。在WoW基准的连续预测中,发现智能体每一步都优于提示基线。以Claude Opus为例,第5步时基线跌至0.105,发现智能体仍保持在0.199。
更关键的是,发现智能体能将“无规则”下的低分(约10)恢复到接近“规则已给”的水平(约30–32),弥补大部分差距。
为什么AI即使读了规则,还是会出错?
研究发现,AI在三种情况下容易失手,即使规则已提供:
- 插入盲视:对“创建新记录”操作预测差,常漏掉新记录触发的多个字段变化。创建类操作的召回率仅为修改类的一半。
- 级联衰减:能准确追踪前1–2条规则,但对深层规则(执行顺序400以上)召回率骤降至4–11%。
- 单记录假设:遇到“对多条记录循环操作”时,只预测一条记录的影响,忽略循环。
这些不是信息缺失问题,而是模型推理多步规则链的能力瓶颈。研究指出,未来需专门训练模型“组合执行规则链”,而不仅是检索内容。
这项研究的核心启示是:当规则可以被直接查阅时,AI不应只靠死记硬背。在规则频繁变化的企业环境中,实时发现比内化记忆更可靠。但理想路径是两者结合——用训练获得的推理能力打底,用实时检索追踪最新状态,并教会AI何时查、怎么查、如何推理。
这不仅是技术选择,更关乎AI系统的长期鲁棒性与可维护性。