本指南将引导您完成在 AI 网关中设置评估的过程。这些步骤在 Cloudflare 仪表板 ↗ 中完成。
数据集是为分析而存储的日志集合,可用于评估。您可以通过在日志选项卡中应用过滤器来创建数据集。数据集将根据设置的过滤器自动更新。
- 应用过滤器以缩小日志范围。过滤器选项包括提供商、令牌数量、请求状态等。
- 选择创建数据集以存储过滤后的日志以供将来分析。
您可以通过从日志选项卡中选择管理数据集来管理数据集。
过滤器类别 | 过滤器选项 | 过滤器描述 |
---|---|---|
状态 | 错误,状态 | 错误类型或状态。 |
缓存 | 已缓存,未缓存 | 基于是否被缓存。 |
提供商 | 特定提供商 | 选定的 AI 提供商。 |
AI 模型 | 特定模型 | 选定的 AI 模型。 |
成本 | 小于,大于 | 成本,指定阈值。 |
请求类型 | 通用,Workers AI 绑定,WebSockets | 请求的类型。 |
令牌 | 总令牌,输入令牌,输出令牌 | 令牌计数(小于或大于)。 |
持续时间 | 小于,大于 | 请求持续时间。 |
反馈 | 等于,不等于(赞,踩,无反馈) | 反馈类型。 |
元数据键 | 等于,不等于 | 特定元数据键。 |
元数据值 | 等于,不等于 | 特定元数据值。 |
日志 ID | 等于,不等于 | 特定日志 ID。 |
事件 ID | 等于,不等于 | 特定事件 ID。 |
创建数据集后,选择评估参数:
- 成本:计算数据集中推理请求的平均成本(仅适用于具有成本数据的请求)。
- 速度:计算数据集中推理请求的平均持续时间。
- 性能:
- 人工反馈:基于人工反馈衡量性能,通过日志中赞成票的百分比计算,从日志选项卡中注释。
- 为您的评估创建一个唯一的名称,以便在仪表板中引用它。
- 审查所选的数据集和评估器。
- 选择运行以开始该过程。
评估结果将显示在评估选项卡中。结果显示评估的状态(例如,进行中、已完成或错误)。将显示所选评估器的指标,不包括任何缺少字段的日志。您还将看到用于计算每个指标的日志数量。
虽然数据集会根据过滤器自动更新,但评估不会。如果要评估新日志,您必须创建新的评估。
使用这些见解根据您应用程序的优先级进行优化。根据结果,您可以选择:
- 更改模型或提供商
- 调整您的提示
- 探索进一步的优化,例如设置检索增强生成 (RAG)
- @2025 Cloudflare Ubitools
- Cf Repo