常规步骤
分类、抽取、校验、路由和修复,并不总是需要整套系统里最昂贵的模型。
第一个可购买 offer 是 Flev DevOps:发送一条失败 CI、部署、Kubernetes 或 incident 路径,拿回诊断、证据链、runbook 和产品化路径。其他 Flev 工作流也应该沿用这种窄范围、重证据的模式。
Flev 工作流可以把常规、结构化步骤路由到本地或私有小模型,同时保留强模型处理复杂推理。
分类、抽取、校验、路由和修复,并不总是需要整套系统里最昂贵的模型。
团队应该能看到哪一步用了哪个模型、为什么需要 fallback、谁能批准模型变更。
Better Call 证据显示:3,625 个 granite4.1:3b BFCL v4 case 上,工具调用准确率从 73.4% 提升到 83.8%。
买方应该马上看懂:发送什么、拿回什么、怎么判断成功、如果试点有效会沉淀成什么。
用户侧工作空间:运行工作流、检查证据、审查上下文、嵌入体验,并打包应该重复的部分。
运营边界:session、审批、证据、记忆生命周期、协议入口和交付上下文始终绑定到同一次运行。
执行守卫:格式错误或高风险工具动作在用户看到失败前被校验、按策略修复或阻断。
成本与隐私边界:常规步骤可以走本地、私有或更小模型,复杂推理仍然可以使用强模型。
CLI 运行、Studio 复盘树、raw trace、memory review、chat、embed 和 workspace 交付表面。
Session、证据、审批、provider、memory 和协议边界始终绑定在同一次运行上。
同模型对比展示 repair、review、memory、HITL 和 runtime control 对通过率、工具调用有效性和延迟的影响。
本地、私有、OpenAI-compatible 或强模型可以按工作流步骤分配,而不是藏在代码里。
BFCL v4 证据:3,625 个 granite4.1:3b case 上,工具调用准确率从 73.4% 提升到 83.8%。
每个 offer 都应该留下买方能转发给操作员、工程负责人或预算负责人的产物。
检查了什么、确认了什么、仍然未知什么,以及每个判断来自哪个来源。
同模型 runtime 对比,展示通过率、有效工具调用、修复成功率、延迟,以及哪个控制模式带来提升。
同类失败或工作流再次出现时,团队应该怎么做。
哪些动作只是只读调查,哪些动作需要复盘,哪些动作永远不应该自动运行。
这个工作流应该变成长期 Flev workspace、客户可见功能,还是一次性咨询输出。