人工反馈是评估 AI 模型性能的一个宝贵指标。通过整合人工反馈,您可以更深入地了解模型的响应如何被感知,以及从以用户为中心的角度看其表现如何。这些反馈随后可用于评估中以计算性能指标,从而推动优化,最终增强您的 AI 应用程序的可靠性、准确性和效率。
人工反馈基于直接的人工输入来衡量数据集的性能。该指标计算为日志中收到的正面反馈(赞)的百分比,这些日志在 Cloudflare 仪表板的日志选项卡中进行注释。这种反馈通过考虑对其输出的真实世界评估来帮助改进模型性能。
本教程将指导您完成使用 Cloudflare 仪表板 ↗ 在 AI 网关的评估中添加人工反馈的过程。
在下一个指南中,您可以了解如何通过 API 添加人工反馈。
- 登录 Cloudflare 仪表板 ↗ 并选择您的账户。
- 转到 AI > AI 网关。
- 转到日志。
- 日志选项卡显示与您的数据集相关的所有日志。这些日志显示关键信息,包括:
- 时间戳:交互发生的时间。
- 状态:请求是成功、缓存还是失败。
- 模型:请求中使用的模型。
- 令牌:响应消耗的令牌数。
- 成本:基于令牌使用量的成本。
- 持续时间:完成响应所花费的时间。
- 反馈:您可以在此处为每个日志提供人工反馈。
- 单击您要查看的日志条目。这将展开日志,让您看到更详细的信息。
- 在展开的日志中,您可以查看其他详细信息,例如:
- 用户提示。
- 模型响应。
- HTTP 响应详细信息。
- 端点信息。
- 您将看到两个图标:
- 赞:表示正面反馈。
- 踩:表示负面反馈。
- 根据您对该特定日志条目的模型响应的评价,单击赞或踩图标。
在为您的日志提供反馈后,它将成为评估过程的一部分。
当您运行评估时(如设置评估指南中所述),人工反馈指标将根据收到赞反馈的日志百分比计算。
运行评估后,在评估选项卡上查看结果。 您将能够根据成本、速度以及现在的人工反馈(表示为正面反馈(赞)的百分比)查看模型的性能。
人工反馈分数以百分比显示,显示数据库中正面评价响应的分布。
有关运行评估的更多信息,请参阅文档设置评估。
- @2025 Cloudflare Ubitools
- Cf Repo