剧本中的错误处理

当 Ansible 从命令接收非零返回值或从模块接收失败时,默认情况下,它将停止在该主机上的执行,并继续在其他主机上执行。但是,在某些情况下,您可能希望有不同的行为。有时非零返回值表示成功。有时您希望一个主机上的失败停止所有主机上的执行。Ansible 提供工具和设置来处理这些情况,并帮助您获得您想要的行为、输出和报告。

忽略失败的命令

默认情况下,当任务在一个主机上失败时,Ansible 会停止在该主机上执行任务。您可以使用 ignore_errors 来继续执行,即使出现失败。

- name: Do not count this as a failure
  ansible.builtin.command: /bin/false
  ignore_errors: true

ignore_errors 指令仅在任务可以运行并返回“失败”值时有效。它不会使 Ansible 忽略未定义的变量错误、连接失败、执行问题(例如,缺少包)或语法错误。

忽略不可达主机错误

版本 2.7 中的新增功能。

您可以使用 ignore_unreachable 关键字忽略由于主机实例“不可达”而导致的任务失败。Ansible 会忽略任务错误,但会继续对不可达主机执行后续任务。例如,在任务级别

- name: This executes, fails, and the failure is ignored
  ansible.builtin.command: /bin/true
  ignore_unreachable: true

- name: This executes, fails, and ends the play for this host
  ansible.builtin.command: /bin/true

以及在剧本级别

- hosts: all
  ignore_unreachable: true
  tasks:
  - name: This executes, fails, and the failure is ignored
    ansible.builtin.command: /bin/true

  - name: This executes, fails, and ends the play for this host
    ansible.builtin.command: /bin/true
    ignore_unreachable: false

重置不可达主机

如果 Ansible 无法连接到主机,它将标记该主机为“不可达”,并将其从运行的活动主机列表中移除。您可以使用 meta: clear_host_errors 重新激活所有主机,以便后续任务可以再次尝试连接到它们。

处理器和失败

Ansible 在每个剧本结束时运行 处理器。如果一个任务通知了处理器,但另一个任务在剧本中稍后失败,默认情况下,处理器将 *不会* 在该主机上运行,这可能会导致主机处于意外状态。例如,一个任务可以更新配置文件并通知处理器重启某些服务。如果剧本中稍后的任务失败,配置文件可能会被更改,但服务不会重启。

您可以使用 --force-handlers 命令行选项、在剧本中包含 force_handlers: True,或将 force_handlers = True 添加到 ansible.cfg 来更改此行为。当处理器被强制时,Ansible 会在所有主机上运行所有通知的处理器,即使是具有失败任务的主机。(请注意,某些错误仍然会阻止处理器运行,例如主机变得不可达。)

定义失败

Ansible 允许您使用 failed_when 条件在每个任务中定义“失败”的含义。与 Ansible 中的所有条件一样,多个 failed_when 条件的列表使用隐式 and 连接,这意味着任务只有在 *所有* 条件都满足时才失败。如果您希望在任何条件满足时触发失败,您必须在字符串中定义条件,并使用显式的 or 运算符。

您可以通过搜索命令输出中的单词或短语来检查失败

- name: Fail task when the command error output prints FAILED
  ansible.builtin.command: /usr/bin/example-command -x -y -z
  register: command_result
  failed_when: "'FAILED' in command_result.stderr"

或根据返回值

- name: Fail task when both files are identical
  ansible.builtin.raw: diff foo/file1 bar/file2
  register: diff_cmd
  failed_when: diff_cmd.rc == 0 or diff_cmd.rc >= 2

您还可以组合多个条件来定义失败。此任务将在两个条件都为真时失败

- name: Check if a file exists in temp and fail task if it does
  ansible.builtin.command: ls /tmp/this_should_not_be_here
  register: result
  failed_when:
    - result.rc == 0
    - '"No such" not in result.stderr'

如果您希望任务仅在满足一个条件时失败,请将 failed_when 定义更改为

failed_when: result.rc == 0 or "No such" not in result.stderr

如果您的条件太多,无法整齐地放在一行,您可以使用 > 将其拆分为多行 YAML 值。

- name: example of many failed_when conditions with OR
  ansible.builtin.shell: "./myBinary"
  register: ret
  failed_when: >
    ("No such file or directory" in ret.stdout) or
    (ret.stderr != '') or
    (ret.rc == 10)

定义“已更改”

Ansible 允许您使用 changed_when 条件定义何时某个任务已“更改”远程节点。这允许您根据返回值或输出确定是否应在 Ansible 统计信息中报告更改,以及是否应触发处理器。与 Ansible 中的所有条件一样,多个 changed_when 条件的列表使用隐式 and 连接,这意味着任务只有在 *所有* 条件都满足时才报告更改。如果您希望在任何条件满足时报告更改,您必须在字符串中定义条件,并使用显式的 or 运算符。例如

tasks:

  - name: Report 'changed' when the return code is not equal to 2
    ansible.builtin.shell: /usr/bin/billybass --mode="take me to the river"
    register: bass_result
    changed_when: "bass_result.rc != 2"

  - name: This will never report 'changed' status
    ansible.builtin.shell: wall 'beep'
    changed_when: False

  - name: This task will always report 'changed' status
    ansible.builtin.command: /path/to/command
    changed_when: True

您还可以组合多个条件来覆盖“已更改”结果。

- name: Combine multiple conditions to override 'changed' result
  ansible.builtin.command: /bin/fake_command
  register: result
  ignore_errors: True
  changed_when:
    - '"ERROR" in result.stderr'
    - result.rc == 2

注意

就像 when 一样,这两个条件不需要模板分隔符 ({{ }}),因为它们是隐式的。

有关更多条件语法示例,请参阅 定义失败

确保命令和 shell 成功

commandshell 模块关心返回值,因此如果您有一个成功的退出代码不是零的命令,您可以执行以下操作

tasks:
  - name: Run this command and ignore the result
    ansible.builtin.shell: /usr/bin/somecommand || /bin/true

中止所有主机上的剧本

有时您希望单个主机上的失败,或一定百分比的主机上的失败,中止所有主机上的整个剧本。您可以在第一次失败发生时使用 any_errors_fatal 停止剧本执行。为了更精细地控制,您可以使用 max_fail_percentage 在达到一定百分比的主机失败后中止运行。

在第一个错误时中止:any_errors_fatal

如果您设置了 any_errors_fatal,并且任务返回错误,Ansible 会完成所有主机上的致命任务,然后停止所有主机上的剧本执行。后续任务和剧本不会执行。您可以通过将 救援部分 添加到块来从致命错误中恢复。您可以在剧本或块级别设置 any_errors_fatal

- hosts: somehosts
  any_errors_fatal: true
  roles:
    - myrole

- hosts: somehosts
  tasks:
    - block:
        - include_tasks: mytasks.yml
      any_errors_fatal: true

当所有任务必须 100% 成功才能继续执行剧本时,您可以使用此功能。例如,如果您在多个数据中心的机器上运行服务,并使用负载均衡器将用户流量传递到服务,那么您希望在停止服务进行维护之前禁用所有负载均衡器。为了确保禁用负载均衡器的任务中的任何失败都会停止所有其他任务

---
- hosts: load_balancers_dc_a
  any_errors_fatal: true

  tasks:
    - name: Shut down datacenter 'A'
      ansible.builtin.command: /usr/bin/disable-dc

- hosts: frontends_dc_a

  tasks:
    - name: Stop service
      ansible.builtin.command: /usr/bin/stop-software

    - name: Update software
      ansible.builtin.command: /usr/bin/upgrade-software

- hosts: load_balancers_dc_a

  tasks:
    - name: Start datacenter 'A'
      ansible.builtin.command: /usr/bin/enable-dc

在此示例中,只有在所有负载均衡器成功禁用后,Ansible 才会在前端启动软件升级。

设置最大失败百分比

默认情况下,只要有尚未失败的主机,Ansible 就会继续执行任务。在某些情况下,例如执行滚动更新时,您可能希望在达到某个失败阈值时中止剧本。为了实现这一点,您可以在剧本上设置最大失败百分比

---
- hosts: webservers
  max_fail_percentage: 30
  serial: 10

max_fail_percentage 设置适用于您在使用 串行 时使用的每个批次。在上例中,如果第一个(或任何)批次中的 10 台服务器中有超过 3 台服务器失败,则余下的剧本将被中止。

注意

设置的百分比必须超过,而不是等于。例如,如果将 serial 设置为 4,并且希望在 2 个系统故障时中止播放,则将 max_fail_percentage 设置为 49 而不是 50。

控制块中的错误

您还可以使用块来定义对任务错误的响应。这种方法类似于许多编程语言中的异常处理。有关详细信息和示例,请参见 使用块处理错误

另请参阅

Ansible 剧本

剧本简介

一般提示

剧本技巧

条件

剧本中的条件语句

使用变量

关于变量

沟通

有疑问吗?需要帮助吗?想分享您的想法吗?请访问 Ansible 沟通指南