Skip to content

非官方翻译 - 此文档为非官方中文翻译版本，仅供参考。如有疑问请以英文官方文档为准。

设置评估

本指南将引导您完成在 AI 网关中设置评估的过程。这些步骤在 Cloudflare 仪表板 ↗ 中完成。

1. 选择或创建数据集

数据集是为分析而存储的日志集合，可用于评估。您可以通过在日志选项卡中应用过滤器来创建数据集。数据集将根据设置的过滤器自动更新。

从日志选项卡设置数据集

应用过滤器以缩小日志范围。过滤器选项包括提供商、令牌数量、请求状态等。
选择创建数据集以存储过滤后的日志以供将来分析。

您可以通过从日志选项卡中选择管理数据集来管理数据集。

可用过滤器列表

过滤器类别	过滤器选项	过滤器描述
状态	错误，状态	错误类型或状态。
缓存	已缓存，未缓存	基于是否被缓存。
提供商	特定提供商	选定的 AI 提供商。
AI 模型	特定模型	选定的 AI 模型。
成本	小于，大于	成本，指定阈值。
请求类型	通用，Workers AI 绑定，WebSockets	请求的类型。
令牌	总令牌，输入令牌，输出令牌	令牌计数（小于或大于）。
持续时间	小于，大于	请求持续时间。
反馈	等于，不等于（赞，踩，无反馈）	反馈类型。
元数据键	等于，不等于	特定元数据键。
元数据值	等于，不等于	特定元数据值。
日志 ID	等于，不等于	特定日志 ID。
事件 ID	等于，不等于	特定事件 ID。

2. 选择评估器

创建数据集后，选择评估参数：

成本：计算数据集中推理请求的平均成本（仅适用于具有成本数据的请求）。
速度：计算数据集中推理请求的平均持续时间。
性能：
- 人工反馈：基于人工反馈衡量性能，通过日志中赞成票的百分比计算，从日志选项卡中注释。

3. 命名、审查和运行评估

为您的评估创建一个唯一的名称，以便在仪表板中引用它。
审查所选的数据集和评估器。
选择运行以开始该过程。

4. 审查和分析结果

评估结果将显示在评估选项卡中。结果显示评估的状态（例如，进行中、已完成或错误）。将显示所选评估器的指标，不包括任何缺少字段的日志。您还将看到用于计算每个指标的日志数量。

虽然数据集会根据过滤器自动更新，但评估不会。如果要评估新日志，您必须创建新的评估。

使用这些见解根据您应用程序的优先级进行优化。根据结果，您可以选择：

更改模型或提供商
调整您的提示
探索进一步的优化，例如设置检索增强生成 (RAG)

社区
YouTube
GitHub

@2025 Cloudflare Ubitools
Cf Repo