消息使用 Claude 构建

拒绝与回退

Claude Fable 5 和 Claude Opus 5 如何返回分类器拒绝，以及如何在回退模型上重试被拒绝的请求。

Claude Fable 5 和 Claude Opus 5 包含可以拒绝请求的安全分类器。当这种情况发生时，您收到的是一个正常的响应，而不是错误，其中包含 stop_reason: "refusal"。您通常仍然可以通过将相同的请求发送到另一个 Claude 模型来获得答案。本页向您展示如何识别拒绝以及如何设置该重试。

当您基于 Claude Fable 5 或 Claude Opus 5 构建应用，并希望被拒绝的请求自动回退到另一个模型时，请阅读本页。当您刚刚在响应中看到 "refusal" 并想知道下一步该怎么做时，本页同样适用。

拒绝是什么样的

拒绝是一个成功的 HTTP 200 响应，带有 stop_reason: "refusal"：

{
  "id": "msg_01XFUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
  "model": "claude-fable-5",
  "content": [],
  "stop_reason": "refusal",
  "stop_details": {
    "type": "refusal",
    "category": "cyber",
    "explanation": "This request was declined because it could enable cyber harm."
  },
  "usage": {
    "input_tokens": 412,
    "output_tokens": 0
  }
}

stop_details 对象解释了拒绝的原因：

category： 指明触发分类器的策略领域。
explanation： 人类可读的描述。该文本不稳定，因此应显示它而不是解析它。
当拒绝不对应任何命名类别时，这两个字段均为 null。该 null 是一个正常的、永久的值，而不是占位符。
对于除 refusal 之外的所有停止原因，stop_details 本身为 null。

`category`	含义
`"cyber"`	该请求可能导致网络危害，例如恶意软件或漏洞利用开发。良性的网络安全工作也可能触发此类别。
`"bio"`	该请求可能导致生物危害，例如危险的实验室方法。有益的生命科学工作也可能触发此类别。
`"frontier_llm"`	该请求可能协助开发竞争性 AI 模型，这在 Anthropic 的商业条款下受到限制。良性的机器学习工作也可能触发此类别。
`"reasoning_extraction"`	该请求要求模型在响应文本中重现其内部推理。要以结构化形式获取推理，请改用自适应思考。
`"general_harms"`	该请求可能与被判定为有害的领域相关。良性工作有时也可能触发此类别。

拒绝可能在任何输出之前到达，也可能在部分输出之后的流中途到达。无论哪种情况，都应将任何部分输出视为不完整并丢弃。

拒绝如何计费： 对于在任何输出之前到达的拒绝，您无需付费。content 为空，令牌计数出现在 usage 中但不收费。该请求仍会计入您的速率限制。流中途的拒绝会按正常费率对输入令牌和已流式传输的输出计费。

选择回退方式

有三种方法可以在另一个模型上重试被拒绝的请求。哪种方法合适取决于您的运行环境以及您需要多少控制权。

您的情况	使用	原因
Claude API，最简单的设置	服务器端回退	一个请求，一个响应。API 处理重试。
任何平台，使用 Anthropic SDK	SDK 中间件	在客户端配置一次。重试自动进行。
原始 HTTP 或自定义重试逻辑	使用回退额度手动重试	完全控制。回退额度可降低成本。

服务器端回退和 SDK 中间件会为您应用回退额度。只有当您自己构建重试时，才需要阅读回退额度页面。

服务器端回退

服务器端回退在单个 API 调用内重试被拒绝的请求。在默认模式下，当主模型拒绝且该拒绝类别有推荐的回退模型时，API 会在 Anthropic 针对该类别推荐的模型上运行相同的请求。您也可以自行指定最多三个回退模型（见下文）。无论哪种方式，您都会收到一个响应，其中指明了作答的模型，因此您的用户可以在一次往返中获得答案。

服务器端回退在 Claude API 上处于 beta 阶段。fallbacks 参数在 Message Batches API 上不受支持（包含该参数的批处理项会作为出错结果返回），并且在 Amazon Bedrock、Google Cloud 或 Microsoft Foundry 上不可用。在这些平台上，请改用带有 SDK 中间件的客户端回退。

发出请求

将 fallbacks 参数设置为字符串 "default"，并发送 server-side-fallback-2026-07-01 beta 标头。然后，API 会应用所请求模型的服务器定义的默认路由，该路由会根据分类器报告的拒绝类别选择推荐的回退模型，因此被拒绝的请求可以得到服务，而您无需在推荐变化时维护模型列表。

client = Anthropic()

response = client.beta.messages.create(
    model="claude-fable-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude"}],
    fallbacks="default",
    betas=["server-side-fallback-2026-07-01"],
)

# usage.iterations 中出现 fallback_message 条目表示运行了回退模型；
# 将其与 stop_reason 结合使用，以确认响应是由回退模型提供的。
fallback_ran = any(
    iteration.type == "fallback_message"
    for iteration in response.usage.iterations or []
)
served_by_fallback = fallback_ran and response.stop_reason != "refusal"

print(
    json.dumps(
        {
            "stop_reason": response.stop_reason,
            "model": response.model,
            "served_by_fallback": served_by_fallback,
        }
    )
)

Anthropic 根据模型的能力，为每个模型和每个策略类别单独设置安全防护措施：根据类别的不同，被标记的请求可能会回退到能力较弱的模型，或者被拒绝。"default" 模式为您编码了这些按模型、按类别的推荐，因此被拒绝的请求会在 Anthropic 针对该类别推荐的模型上重试。无论哪种方式，回退都是可见的：响应会指明为其提供服务的模型，并且 fallback 内容块会标记交接点。

该路由在服务器端应用，并且不会在 Models API 上按模型发布。要查看哪个模型为被拒绝的请求提供了服务，请检查响应的顶层 model 字段，并在 usage.iterations 中查找 fallback_message 条目，正如本页的示例所做的那样。

只有安全分类器的拒绝才会触发回退。所请求模型上的速率限制、过载或服务器错误会原样返回给您。

beta 标头必须准确携带日期 2026-07-01（同时支持 "default" 和下面的显式列表形式）或 2026-06-01（仅接受显式列表形式）。在任何其他 server-side-fallback-* 值下，fallbacks 参数会被拒绝并返回 400 错误。如果您是基于此功能的早期预览版构建的，请将 beta 标头以及请求和响应的结构一起更新为本页所示的形式。

指定您自己的回退模型

您可以将 fallbacks 设置为最多包含三个模型的列表，而不是使用默认路由。当所请求的模型拒绝时，API 会在相同的请求上运行链中的下一个模型。当您想要精确控制哪些模型为被拒绝的请求提供服务时（例如固定使用您的应用程序已验证过的模型），请使用此形式。

client = Anthropic()

response = client.beta.messages.create(
    model="claude-fable-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude"}],
    fallbacks=[{"model": "claude-opus-4-8"}],
    betas=["server-side-fallback-2026-07-01"],
)
print(response.model)

fallbacks 列表适用以下几条规则：

条目按顺序尝试。每个条目必须与其他条目以及所请求的模型不同。
每个条目必须是所请求模型允许的目标之一。设置了 beta 标头后，该列表会作为 allowed_fallback_models 发布在 Models API 中该模型的条目上。
每个条目指定一个 model，并且可以仅针对该次尝试覆盖 max_tokens、thinking、output_config 和 speed。
该请求必须对所指定的每个模型都是有效的直接请求。如果某个回退模型不支持请求所使用的某项功能，API 会预先拒绝该请求。
与默认模式一样，只有安全分类器的拒绝才会触发回退。所请求模型上的速率限制、过载或服务器错误会原样返回给您。

显式列表形式在 server-side-fallback-2026-06-01 beta 标头下也可用；"default" 模式则不可用。

两种模式下的响应结构相同：为该轮提供服务的模型出现在顶层 model 字段中，fallback 内容块标记交接点，usage.iterations 记录每次尝试。

响应包含的内容

该响应看起来与任何其他消息一样，但有两个附加内容：

顶层 model 字段报告生成所返回消息的模型，无论是所请求的模型还是回退模型。
fallback 内容块标记 content 中一个模型的输出让位于下一个模型的每个位置：{"type": "fallback", "from": {"model": ...}, "to": {"model": ...}}。
- 当拒绝的跳转点是所请求的模型时，from.model 会回显您发送的模型字符串。
- to.model 始终是继续作答的模型的解析后 ID。

在任何输出之前发生拒绝时，fallback 块是第一个内容块。例如，当默认路由为该拒绝的类别选择 Claude Opus 4.8 时：

{
  "id": "msg_01XFUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
  "model": "claude-opus-4-8",
  "content": [
    {
      "type": "fallback",
      "from": { "model": "claude-fable-5" },
      "to": { "model": "claude-opus-4-8" }
    },
    { "type": "text", "text": "Hi! How can I help you today?" }
  ],
  "stop_reason": "end_turn",
  "stop_details": null,
  "usage": {
    "input_tokens": 412,
    "output_tokens": 264,
    "cache_read_input_tokens": 0,
    "cache_creation_input_tokens": 0,
    "iterations": [
      {
        "type": "message",
        "model": "claude-fable-5",
        "input_tokens": 535,
        "output_tokens": 0,
        "cache_read_input_tokens": 0,
        "cache_creation_input_tokens": 0
      },
      {
        "type": "fallback_message",
        "model": "claude-opus-4-8",
        "input_tokens": 412,
        "output_tokens": 264,
        "cache_read_input_tokens": 0,
        "cache_creation_input_tokens": 0
      }
    ]
  }
}

usage.iterations 数组记录每次尝试。拒绝的模型显示为普通的 message 条目，而为该轮提供服务的模型显示为 fallback_message 条目。如果链中的每个模型都拒绝，则响应是最后一个模型的拒绝，其中每个较早的跳转点都有一个 message 条目，最后一个则有一个 fallback_message 条目。

继续对话

在下一轮中，按照您收到的原样将助手内容发送回去。在输出中途发生回退后，content 可能包含拒绝模型在交接之前生成的块类型；下表说明了在回显该轮时哪些应保留、哪些应丢弃。

块类型	在下一轮中
`fallback`	将其保留在原来出现的位置。API 使用其位置来验证其周围的思考块，因此如果省略或移动该块，回显边界两侧思考块的请求会被拒绝。
`text`	保留。
最后一个 `fallback` 块之后的任何块	保留。
最后一个 `fallback` 块之前的 `thinking`、`redacted_thinking` 或 `connector_text`	丢弃。
最后一个 `fallback` 块之前的客户端 `tool_use`	丢弃。
最后一个 `fallback` 块之前的 `server_tool_use`	当与其结果配对时保留。当没有匹配的结果时丢弃。

connector_text 块携带某些使用工具的响应在工具调用之间包含的叙述文本。

流式传输

在流式传输请求中，重试发生在同一个流上，并且您已经收到的任何内容都不会失效。您看到的内容取决于拒绝发生的时间。

当拒绝发生在任何输出之前时：

message_start 指明回退模型，并且 fallback 块是第一个内容块。
由于 message_start 会等待回退尝试开始，因此首字节时间包括被拒绝的尝试。

当拒绝发生在输出中途时：

打开的内容块关闭，fallback 块（一个普通的 content_block_start 和 content_block_stop 对，没有增量）标记边界。
回退模型从部分输出继续。只有部分输出的 text 块会作为上下文传递给回退模型；其他块类型保留在 content 中。
message_start 已经指明了所请求的模型，因此请从 fallback 块的 to.model 以及最终 message_delta 的 usage.iterations 中的 fallback_message 条目读取提供服务的模型。

非流式传输响应

在非流式传输请求中，输出中途的拒绝行为有所不同：响应会省略被拒绝模型的部分输出，回退模型从头开始作答。结果看起来像是在任何输出之前的拒绝，fallback 块位于最前面。被拒绝的尝试及其输出令牌仍会出现在 usage.iterations 中。

工具使用期间的拒绝： 已完成的工具工作不会阻止回退。当拒绝在服务器工具（例如网络搜索或代码执行）在请求内执行完成后触发时，回退尝试会继续进行：已完成的工具结果会被保留，并且回退模型可以继续调用服务器工具。唯一不会重试的情况是：流式传输拒绝在任何类型的工具使用块（客户端工具、服务器工具或 MCP 工具调用）仍在流上打开时触发：该拒绝会直接返回，并且如果设置了 fallback-credit-2026-07-01 标头，它仍然携带一个可通过继续部分响应来兑换的额度令牌。非流式传输请求不受影响；API 会清除部分工作并在响应之前重试。

带有 SDK 中间件的客户端回退

每个 Anthropic SDK 都包含一个拒绝回退中间件。您在客户端上使用回退模型列表配置一次。之后通过 client.beta.messages 的调用会在任何平台上自动重试被拒绝的请求。该中间件还会在它处理的每个请求上发送 fallback-credit-2026-07-01 beta 标头，因此重试会被重新定价，而无需按请求设置。

设置方法

将中间件传递给客户端构造函数，并在一个对话的各个请求之间共享一个 BetaFallbackState 实例。

from anthropic import Anthropic, BetaFallbackState, BetaRefusalFallbackMiddleware

# 发生拒绝时，中间件会在列出的回退模型上重试，并
# 在其处理的每个请求中自动发送 fallback-credit beta 标头。
client = Anthropic(
    middleware=[BetaRefusalFallbackMiddleware([{"model": "claude-opus-4-8"}])],
)

state = BetaFallbackState()  # pins follow-ups to the model that accepted

# 流式传输：发生拒绝时，中间件会在回退模型上重试，并
# 将其事件拼接到已打开的流中。
with (
    state,
    client.beta.messages.stream(
        max_tokens=1024,
        model="claude-fable-5",
        messages=[{"role": "user", "content": "Hello, Claude"}],
    ) as stream,
):
    for text in stream.text_stream:
        print(text, end="", flush=True)
    final_message = stream.get_final_message()
print(f"\nserved by: {final_message.model}")

# 非流式传输：重用该状态可使对话保持固定。
with state:
    message = client.beta.messages.create(
        max_tokens=1024,
        model="claude-fable-5",
        messages=[{"role": "user", "content": "Hello, Claude"}],
    )
print(f"served by: {message.model}")

行为方式

重试按顺序遍历您的回退列表。如果某个回退模型自身也拒绝，则将请求传递给下一个条目。
当列表中的每个模型都拒绝时，中间件返回最终的拒绝（最后一个模型的拒绝响应），而不是抛出错误。
来自 Claude Fable 5 的思考块会原样传递：每次重试都会重新发送您的原始请求体，并且中间件在后续请求中从对话历史中移除的唯一块是它自己添加的 fallback 边界块。
通过中间件提供服务的响应在每个模型边界处包含一个 fallback 内容块，与服务器端回退响应相同。中间件会在后续请求中为您管理这些块。
接受请求的模型会记录在 BetaFallbackState 中，因此共享该状态的后续请求会固定使用它，而不是再次询问已拒绝的模型。

中间件和服务器端 fallbacks 参数的作用相同。配置其中一个即可，切勿在同一请求上同时配置两者。要从安装了中间件的应用程序发送服务器端 fallbacks 请求，请使用一个未安装中间件的单独客户端实例。

Message Batches 中的拒绝

Message Batch 中被拒绝的请求会以 result.type: "succeeded" 和 stop_reason: "refusal" 的形式返回。批处理结果携带与同步响应相同的 stop_details 对象，因此您可以通过 stop_reason 或 stop_details.type 检测拒绝。有一个区别：批处理拒绝不会生成回退额度，因此批处理结果上的 stop_details 永远不会包含 fallback_credit_token。

服务器端回退不适用于批处理（包含 fallbacks 的批处理请求会产生按项出错的结果）。要重试被拒绝的批处理项：

从结果中收集被拒绝的项。
从任何多轮历史中剥离 Claude Fable 5 的思考块。
将它们作为新批处理或直接请求在回退模型上重新提交。

常见陷阱

在不同的模型上重试。 将被拒绝的请求重新发送到同一个模型通常会再次被拒绝。请将重试指向回退模型。
按请求而不是按轮次或按会话预算重试。 单轮可能产生多次拒绝，例如一个代理加上它的子代理。
在每个请求路径上配置回退。 重试处理程序、错误恢复分支和后台工作进程都需要它。不带回退重新发出请求的处理程序，恰恰会在最可能需要保护的请求上失去保护。
为子代理调用提供它们自己的回退。 fallbacks 参数不会传播到工具执行内部发出的模型调用中。
使回退成为请求的属性，而不是环境状态的属性。 共享标志、缓存的配置值或全局开关可能会失去同步，并悄无声息地使请求失去保护。当您无法确认回退是否处于活动状态时，请配置它，而不是假设它已开启。
将拒绝作为独立信号进行监测。 拒绝是 HTTP 200，因此基于错误率或 5xx 响应构建的监控永远看不到它。为每次拒绝发出一个事件，为每个由回退提供服务的响应发出一个事件（usage.iterations 中的 fallback_message 条目标记后者），然后对两个计数之间的差距发出警报。
基于 stop_reason 或 stop_details.type 进行分支，而不是基于 content 或 stop_details 的内部字段。 stop_details 对象在拒绝时始终存在，但其 category 和 explanation 字段可能为 null。请直接检查 stop_reason 是否等于 "refusal"。

后续步骤

回退额度

当您自己构建重试时，避免支付两次提示缓存成本。

停止原因与回退

每个 stop_reason 值及其处理方法。

SDK 中间件

SDK 中间件的工作原理，包括拒绝回退辅助工具。

迁移指南

将现有应用程序迁移到 Claude Fable 5。

Was this page helpful?

消息使用 Claude 构建

拒绝与回退

Claude Fable 5 和 Claude Opus 5 如何返回分类器拒绝，以及如何在回退模型上重试被拒绝的请求。

拒绝是什么样的

拒绝是一个成功的 HTTP 200 响应，带有 stop_reason: "refusal"：

{
  "id": "msg_01XFUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
  "model": "claude-fable-5",
  "content": [],
  "stop_reason": "refusal",
  "stop_details": {
    "type": "refusal",
    "category": "cyber",
    "explanation": "This request was declined because it could enable cyber harm."
  },
  "usage": {
    "input_tokens": 412,
    "output_tokens": 0
  }
}

stop_details 对象解释了拒绝的原因：

category： 指明触发分类器的策略领域。
explanation： 人类可读的描述。该文本不稳定，因此应显示它而不是解析它。
当拒绝不对应任何命名类别时，这两个字段均为 null。该 null 是一个正常的、永久的值，而不是占位符。
对于除 refusal 之外的所有停止原因，stop_details 本身为 null。

`category`	含义
`"cyber"`	该请求可能导致网络危害，例如恶意软件或漏洞利用开发。良性的网络安全工作也可能触发此类别。
`"bio"`	该请求可能导致生物危害，例如危险的实验室方法。有益的生命科学工作也可能触发此类别。
`"frontier_llm"`	该请求可能协助开发竞争性 AI 模型，这在 Anthropic 的商业条款下受到限制。良性的机器学习工作也可能触发此类别。
`"reasoning_extraction"`	该请求要求模型在响应文本中重现其内部推理。要以结构化形式获取推理，请改用自适应思考。
`"general_harms"`	该请求可能与被判定为有害的领域相关。良性工作有时也可能触发此类别。

拒绝可能在任何输出之前到达，也可能在部分输出之后的流中途到达。无论哪种情况，都应将任何部分输出视为不完整并丢弃。

选择回退方式

有三种方法可以在另一个模型上重试被拒绝的请求。哪种方法合适取决于您的运行环境以及您需要多少控制权。

您的情况	使用	原因
Claude API，最简单的设置	服务器端回退	一个请求，一个响应。API 处理重试。
任何平台，使用 Anthropic SDK	SDK 中间件	在客户端配置一次。重试自动进行。
原始 HTTP 或自定义重试逻辑	使用回退额度手动重试	完全控制。回退额度可降低成本。

服务器端回退和 SDK 中间件会为您应用回退额度。只有当您自己构建重试时，才需要阅读回退额度页面。

服务器端回退

发出请求

client = Anthropic()

response = client.beta.messages.create(
    model="claude-fable-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude"}],
    fallbacks="default",
    betas=["server-side-fallback-2026-07-01"],
)

# usage.iterations 中出现 fallback_message 条目表示运行了回退模型；
# 将其与 stop_reason 结合使用，以确认响应是由回退模型提供的。
fallback_ran = any(
    iteration.type == "fallback_message"
    for iteration in response.usage.iterations or []
)
served_by_fallback = fallback_ran and response.stop_reason != "refusal"

print(
    json.dumps(
        {
            "stop_reason": response.stop_reason,
            "model": response.model,
            "served_by_fallback": served_by_fallback,
        }
    )
)

只有安全分类器的拒绝才会触发回退。所请求模型上的速率限制、过载或服务器错误会原样返回给您。

指定您自己的回退模型

client = Anthropic()

response = client.beta.messages.create(
    model="claude-fable-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude"}],
    fallbacks=[{"model": "claude-opus-4-8"}],
    betas=["server-side-fallback-2026-07-01"],
)
print(response.model)

fallbacks 列表适用以下几条规则：

条目按顺序尝试。每个条目必须与其他条目以及所请求的模型不同。
每个条目必须是所请求模型允许的目标之一。设置了 beta 标头后，该列表会作为 allowed_fallback_models 发布在 Models API 中该模型的条目上。
每个条目指定一个 model，并且可以仅针对该次尝试覆盖 max_tokens、thinking、output_config 和 speed。
该请求必须对所指定的每个模型都是有效的直接请求。如果某个回退模型不支持请求所使用的某项功能，API 会预先拒绝该请求。
与默认模式一样，只有安全分类器的拒绝才会触发回退。所请求模型上的速率限制、过载或服务器错误会原样返回给您。

显式列表形式在 server-side-fallback-2026-06-01 beta 标头下也可用；"default" 模式则不可用。

两种模式下的响应结构相同：为该轮提供服务的模型出现在顶层 model 字段中，fallback 内容块标记交接点，usage.iterations 记录每次尝试。

响应包含的内容

该响应看起来与任何其他消息一样，但有两个附加内容：

顶层 model 字段报告生成所返回消息的模型，无论是所请求的模型还是回退模型。
fallback 内容块标记 content 中一个模型的输出让位于下一个模型的每个位置：{"type": "fallback", "from": {"model": ...}, "to": {"model": ...}}。
- 当拒绝的跳转点是所请求的模型时，from.model 会回显您发送的模型字符串。
- to.model 始终是继续作答的模型的解析后 ID。

在任何输出之前发生拒绝时，fallback 块是第一个内容块。例如，当默认路由为该拒绝的类别选择 Claude Opus 4.8 时：

{
  "id": "msg_01XFUDYJgAACzvnptvVoYEL",
  "type": "message",
  "role": "assistant",
  "model": "claude-opus-4-8",
  "content": [
    {
      "type": "fallback",
      "from": { "model": "claude-fable-5" },
      "to": { "model": "claude-opus-4-8" }
    },
    { "type": "text", "text": "Hi! How can I help you today?" }
  ],
  "stop_reason": "end_turn",
  "stop_details": null,
  "usage": {
    "input_tokens": 412,
    "output_tokens": 264,
    "cache_read_input_tokens": 0,
    "cache_creation_input_tokens": 0,
    "iterations": [
      {
        "type": "message",
        "model": "claude-fable-5",
        "input_tokens": 535,
        "output_tokens": 0,
        "cache_read_input_tokens": 0,
        "cache_creation_input_tokens": 0
      },
      {
        "type": "fallback_message",
        "model": "claude-opus-4-8",
        "input_tokens": 412,
        "output_tokens": 264,
        "cache_read_input_tokens": 0,
        "cache_creation_input_tokens": 0
      }
    ]
  }
}

继续对话

块类型	在下一轮中
`fallback`	将其保留在原来出现的位置。API 使用其位置来验证其周围的思考块，因此如果省略或移动该块，回显边界两侧思考块的请求会被拒绝。
`text`	保留。
最后一个 `fallback` 块之后的任何块	保留。
最后一个 `fallback` 块之前的 `thinking`、`redacted_thinking` 或 `connector_text`	丢弃。
最后一个 `fallback` 块之前的客户端 `tool_use`	丢弃。
最后一个 `fallback` 块之前的 `server_tool_use`	当与其结果配对时保留。当没有匹配的结果时丢弃。

connector_text 块携带某些使用工具的响应在工具调用之间包含的叙述文本。

流式传输

在流式传输请求中，重试发生在同一个流上，并且您已经收到的任何内容都不会失效。您看到的内容取决于拒绝发生的时间。

当拒绝发生在任何输出之前时：

message_start 指明回退模型，并且 fallback 块是第一个内容块。
由于 message_start 会等待回退尝试开始，因此首字节时间包括被拒绝的尝试。

当拒绝发生在输出中途时：

打开的内容块关闭，fallback 块（一个普通的 content_block_start 和 content_block_stop 对，没有增量）标记边界。
回退模型从部分输出继续。只有部分输出的 text 块会作为上下文传递给回退模型；其他块类型保留在 content 中。
message_start 已经指明了所请求的模型，因此请从 fallback 块的 to.model 以及最终 message_delta 的 usage.iterations 中的 fallback_message 条目读取提供服务的模型。

非流式传输响应

带有 SDK 中间件的客户端回退

设置方法

将中间件传递给客户端构造函数，并在一个对话的各个请求之间共享一个 BetaFallbackState 实例。

from anthropic import Anthropic, BetaFallbackState, BetaRefusalFallbackMiddleware

# 发生拒绝时，中间件会在列出的回退模型上重试，并
# 在其处理的每个请求中自动发送 fallback-credit beta 标头。
client = Anthropic(
    middleware=[BetaRefusalFallbackMiddleware([{"model": "claude-opus-4-8"}])],
)

state = BetaFallbackState()  # pins follow-ups to the model that accepted

# 流式传输：发生拒绝时，中间件会在回退模型上重试，并
# 将其事件拼接到已打开的流中。
with (
    state,
    client.beta.messages.stream(
        max_tokens=1024,
        model="claude-fable-5",
        messages=[{"role": "user", "content": "Hello, Claude"}],
    ) as stream,
):
    for text in stream.text_stream:
        print(text, end="", flush=True)
    final_message = stream.get_final_message()
print(f"\nserved by: {final_message.model}")

# 非流式传输：重用该状态可使对话保持固定。
with state:
    message = client.beta.messages.create(
        max_tokens=1024,
        model="claude-fable-5",
        messages=[{"role": "user", "content": "Hello, Claude"}],
    )
print(f"served by: {message.model}")

行为方式

重试按顺序遍历您的回退列表。如果某个回退模型自身也拒绝，则将请求传递给下一个条目。
当列表中的每个模型都拒绝时，中间件返回最终的拒绝（最后一个模型的拒绝响应），而不是抛出错误。
来自 Claude Fable 5 的思考块会原样传递：每次重试都会重新发送您的原始请求体，并且中间件在后续请求中从对话历史中移除的唯一块是它自己添加的 fallback 边界块。
通过中间件提供服务的响应在每个模型边界处包含一个 fallback 内容块，与服务器端回退响应相同。中间件会在后续请求中为您管理这些块。
接受请求的模型会记录在 BetaFallbackState 中，因此共享该状态的后续请求会固定使用它，而不是再次询问已拒绝的模型。

Message Batches 中的拒绝

服务器端回退不适用于批处理（包含 fallbacks 的批处理请求会产生按项出错的结果）。要重试被拒绝的批处理项：

从结果中收集被拒绝的项。
从任何多轮历史中剥离 Claude Fable 5 的思考块。
将它们作为新批处理或直接请求在回退模型上重新提交。

常见陷阱

在不同的模型上重试。 将被拒绝的请求重新发送到同一个模型通常会再次被拒绝。请将重试指向回退模型。
按请求而不是按轮次或按会话预算重试。 单轮可能产生多次拒绝，例如一个代理加上它的子代理。
在每个请求路径上配置回退。 重试处理程序、错误恢复分支和后台工作进程都需要它。不带回退重新发出请求的处理程序，恰恰会在最可能需要保护的请求上失去保护。
为子代理调用提供它们自己的回退。 fallbacks 参数不会传播到工具执行内部发出的模型调用中。
使回退成为请求的属性，而不是环境状态的属性。 共享标志、缓存的配置值或全局开关可能会失去同步，并悄无声息地使请求失去保护。当您无法确认回退是否处于活动状态时，请配置它，而不是假设它已开启。
将拒绝作为独立信号进行监测。 拒绝是 HTTP 200，因此基于错误率或 5xx 响应构建的监控永远看不到它。为每次拒绝发出一个事件，为每个由回退提供服务的响应发出一个事件（usage.iterations 中的 fallback_message 条目标记后者），然后对两个计数之间的差距发出警报。
基于 stop_reason 或 stop_details.type 进行分支，而不是基于 content 或 stop_details 的内部字段。 stop_details 对象在拒绝时始终存在，但其 category 和 explanation 字段可能为 null。请直接检查 stop_reason 是否等于 "refusal"。

后续步骤

回退额度

当您自己构建重试时，避免支付两次提示缓存成本。

停止原因与回退

每个 stop_reason 值及其处理方法。

SDK 中间件

SDK 中间件的工作原理，包括拒绝回退辅助工具。

迁移指南

将现有应用程序迁移到 Claude Fable 5。

Was this page helpful?

拒绝是什么样的

选择回退方式

服务器端回退

发出请求

指定您自己的回退模型

响应包含的内容

继续对话

流式传输

非流式传输响应

粘性路由

服务器端回退如何计费

带有 SDK 中间件的客户端回退

设置方法

行为方式

自己编写重试逻辑

Message Batches 中的拒绝

常见陷阱

后续步骤

拒绝是什么样的

选择回退方式

服务器端回退

发出请求

指定您自己的回退模型

响应包含的内容

继续对话

流式传输

非流式传输响应

粘性路由

服务器端回退如何计费

带有 SDK 中间件的客户端回退

设置方法

行为方式

自己编写重试逻辑

Message Batches 中的拒绝

常见陷阱

后续步骤

拒绝是什么样的

选择回退方式

服务器端回退

发出请求

指定您自己的回退模型

响应包含的内容

继续对话

流式传输

非流式传输响应

带有 SDK 中间件的客户端回退

设置方法

行为方式

Message Batches 中的拒绝

常见陷阱

后续步骤

拒绝是什么样的

选择回退方式

服务器端回退

发出请求

指定您自己的回退模型

响应包含的内容

继续对话

流式传输

非流式传输响应

带有 SDK 中间件的客户端回退

设置方法

行为方式

Message Batches 中的拒绝

常见陷阱

后续步骤