护栏目前在 Workers AI 上使用 Llama Guard 3 8B ↗ 来执行内容评估。底层模型将来可能会更新,我们将在护栏中反映这些更改。
由于护栏在 Workers AI 上运行,启用它会产生 Workers AI 的使用量。您可以通过 Workers AI 仪表板监控使用情况。
- 模型可用性:如果至少一个危险类别设置为
block
,但 AI 网关无法从 Workers AI 收到响应,则请求将被阻止。相反,如果一个危险类别设置为flag
并且 AI 网关无法从 Workers AI 获得响应,则请求将继续进行而不进行评估。这种方法优先考虑可用性,即使在无法进行内容评估时也允许请求继续。 - 延迟影响:启用护栏会增加一些延迟。启用护栏会给请求增加额外的延迟。通常,在 Workers AI 上使用 Llama Guard 3 8B 的评估会给每个请求增加大约 500 毫秒的延迟。然而,较大的请求可能会经历增加的延迟,尽管这种增加不是线性的。在平衡安全性和性能时请考虑这一点。
- 处理长内容:在评估长提示或响应时,护栏会自动将内容分段成较小的块,通过单独的护栏请求处理每个块。这种方法确保了全面的审核,但可能会导致较长输入的延迟增加。
- 支持的语言:Llama Guard 3.3 8B 支持以下语言的内容安全分类:英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。
- 流式支持:使用护栏时不支持流式传输。
- @2025 Cloudflare Ubitools
- Cf Repo