人机协作(Human-in-the-Loop,HITL)工作流将人类判断和监督集成到自动化流程中。这些工作流在关键点暂停,进行人工审查、验证或决策,然后再继续。这种方法将自动化的效率与人类专业知识和监督相结合,在最重要的地方发挥作用。
在人机协作工作流中,流程不是完全自动化的。相反,它们包含指定的检查点,需要人工干预。例如,在旅行预订系统中,人类可能希望在 Agent 执行交易之前确认旅行安排。工作流管理这种交互,确保:
- 流程在适当的审查点暂停
- 人工审查员获得必要的上下文
- 系统在审查期间维护状态
- 审查决策得到适当整合
- 获得批准后流程继续进行
人工审查流程不会按照可预测的时间表运行。审查员可能需要几天或几周的时间来做出决定,特别是对于需要额外调查或多重批准的复杂案例。您的系统需要在此期间保持完美的状态一致性,包括:
- 原始请求和上下文
- 所有中间决策和行动
- 任何部分进度或临时状态
- 审查历史和反馈
人工审查员在评估和改进 LLM 性能方面发挥着关键作用。实施系统化的评估流程,不仅收集人工对最终输出的反馈,还收集对 LLM 决策过程的反馈。这可以包括:
- 决策质量评估:让审查员评估 LLM 的推理过程和决策点,而不仅仅是最终输出。
- 边缘案例识别:利用人类专业知识识别可以改进 LLM 性能的场景。
- 反馈收集:收集结构化反馈,可用于微调 LLM 或调整工作流。AI Gateway 可以是设置 LLM 反馈循环的有用工具。
强大的错误处理对于维护工作流完整性至关重要。您的系统应该优雅地处理各种故障场景,包括审查员不可用、系统中断或冲突审查。实施清晰的升级路径来处理超出正常参数的异常情况。
系统应该在暂停状态期间保持稳定,确保即使在延长的审查期间也不会丢失任何工作。考虑实施自动检查点,允许工作流在任何中断后从最后的稳定状态恢复。
- @2025 Cloudflare Ubitools
- Cf Repo