企业AI的“规矩”难题：死记硬背行不通了

2026-05-18 企业AI 规则系统 ServiceNow Mila研究院发现智能体

企业里总有一套看不见的“规矩”——比如报销怎么批、故障单谁来处理、请假流程走几步。这些规矩被写进系统代码，变成自动化规则。当员工点下某个按钮，系统就会按规矩触发一连串操作，比如分配工程师、发通知、计时……这种连锁反应，研究里叫“级联”。

问题是：AI能学会预测这些反应吗？传统做法是让它看大量历史记录，背下规律。但企业规矩会变，新老板上任可能全改。AI背得再熟，也可能一夜过时。ServiceNow与Mila研究院的研究提出一个新思路：与其让AI死记硬背，不如教会它“查手册”。

企业系统有两个关键特征，让传统AI方法容易失效。

第一，规则不是固定的。管理员可以随时修改流程、打补丁、新增审批链。三个月前的系统和今天可能行为完全不同，但底层平台没变。这意味着靠历史数据训练的AI会逐渐“过期”。

第二，规则是公开可读的。业务规则、工作流、SLA条款都存储为明确的结构化记录，系统管理员能看，AI原则上也能查。这带来一个更聪明的可能：需要时直接查，而不是背下来。

基于此，研究团队提出“企业发现智能体”——一种不依赖记忆、而是实时查阅当前规则的AI。它像新员工入职先读规章手册，再做决定。

为了测试这个想法，研究团队设计了专门的测评基准 CascadeBench。它的任务是：给定系统当前状态和一个操作，预测哪些字段会发生变化。

CascadeBench 的关键设计是“防作弊”：所有数据库结构都是合成的，AI不可能在预训练中见过；每道题附带完整上下文，但可选择隐藏业务规则，以测试推理能力；评分只关注有业务意义的变化，忽略时间戳等无关信息。

难度分为三层： - 模式决定型：变化由数据库结构决定，比如新建用户默认“激活”。 - 规则组合型：需串联多条规则，比如改故障单优先级触发分配、计时、通知等。 - 执行推断型：取决于系统内部执行顺序，比如两条规则同时改同一字段，谁生效由调度逻辑决定，无法从配置中得知。

整个数据集基于真实ServiceNow实例执行生成，涵盖六个行业、三种规模，共27,243条验证样本。

研究测试了三种AI策略：

发现智能体采用“推理+行动”（ReAct）架构：先思考该查什么，调用工具获取信息，再推理下一步，最多允许15次查询。

测试模型包括Claude Opus 4.6、GPT-5、Gemini 3 Pro等前沿模型，以及Qwen、Gemma等开源模型。

实验结果揭示三个关键发现：

第一，规则信息至关重要。当规则被隐藏，所有模型表现都很差（IoU约9–16）；一旦提供规则，得分跃升至38–61。微调仅带来小幅提升，说明死记硬背效果有限。

第二，微调模型在新环境会“露馅”。在训练过的场景中，微调模型表现极佳（如Gemma达91.6 IoU），但在CascadeBench上回落至40左右，优势几乎消失。这说明它学的是特定数据的规律，而非通用推理能力。

第三，发现智能体在陌生环境更稳健。在WoW基准的连续预测中，发现智能体每一步都优于提示基线。以Claude Opus为例，第5步时基线跌至0.105，发现智能体仍保持在0.199。

更关键的是，发现智能体能将“无规则”下的低分（约10）恢复到接近“规则已给”的水平（约30–32），弥补大部分差距。

研究发现，AI在三种情况下容易失手，即使规则已提供：

这些不是信息缺失问题，而是模型推理多步规则链的能力瓶颈。研究指出，未来需专门训练模型“组合执行规则链”，而不仅是检索内容。

这项研究的核心启示是：当规则可以被直接查阅时，AI不应只靠死记硬背。在规则频繁变化的企业环境中，实时发现比内化记忆更可靠。但理想路径是两者结合——用训练获得的推理能力打底，用实时检索追踪最新状态，并教会AI何时查、怎么查、如何推理。

这不仅是技术选择，更关乎AI系统的长期鲁棒性与可维护性。