测试策略
将测试与 Ansible 剧本集成
很多时候,人们会问:“如何才能最好地将测试与 Ansible 剧本集成?”有很多选择。Ansible 的设计实际上是一个“快速失败”和有序的系统,因此可以很容易地将测试直接嵌入到 Ansible 剧本中。在本章中,我们将深入探讨一些将基础设施测试集成到一起的模式,并讨论可能适用的正确测试级别。
注意
本章介绍的是对正在部署的应用程序进行测试,而不是关于如何在开发过程中测试 Ansible 模块的章节。有关该内容,请转到开发部分。
通过将一定程度的测试纳入到您的部署工作流程中,在代码进入生产环境时,您将遇到更少的意外情况,并且在很多情况下,测试可以用于生产环境,以防止失败的更新迁移到整个安装中。由于它是基于推的,因此也很容易在 localhost 或测试服务器上运行这些步骤。Ansible 允许您在升级工作流程中插入任意数量的检查和平衡。
正确的测试级别
Ansible 资源是期望状态的模型。因此,不必测试服务是否已启动、包是否已安装或其他类似的事情。Ansible 是确保这些事情在声明上是真实的系统。相反,在您的剧本中断言这些事情。
tasks:
- ansible.builtin.service:
name: foo
state: started
enabled: true
如果您认为服务可能没有启动,最好的做法是请求它启动。如果服务启动失败,Ansible 将会发出适当的警告。(这与服务是否在执行功能无关,我们将在后面详细介绍如何执行)。
将检查模式用作漂移测试
在上面的设置中,Ansible 中的 --check
模式也可以用作一层测试。如果针对现有系统运行部署剧本,使用 --check
标志到 ansible 命令将报告 Ansible 是否认为它需要进行任何更改才能使系统处于期望状态。
这可以让你提前知道是否需要在给定系统上进行部署。通常情况下,脚本和命令不会在检查模式下运行,因此如果您希望某些步骤即使在使用 --check
标志时也能在正常模式下执行,例如对 script 模块的调用,请为这些任务禁用检查模式
roles:
- webserver
tasks:
- ansible.builtin.script: verify.sh
check_mode: false
用于测试的有用模块
某些剧本模块特别适合进行测试。以下是一个确保端口打开的示例
tasks:
- ansible.builtin.wait_for:
host: "{{ inventory_hostname }}"
port: 22
delegate_to: localhost
以下是一个使用 URI 模块来确保 Web 服务返回的示例
tasks:
- action: uri url=https://www.example.com return_content=yes
register: webpage
- fail:
msg: 'service is not happy'
when: "'AWESOME' not in webpage.content"
很容易将任意脚本(使用任何语言)推送到远程主机,如果脚本具有非零返回值,则脚本将自动失败
tasks:
- ansible.builtin.script: test_script1
- ansible.builtin.script: test_script2 --parameter value --parameter2 value
如果使用角色(您应该使用角色,角色很棒!),由 script 模块推送的脚本可以位于角色的‘files/’目录中。
并且 assert 模块可以非常轻松地验证各种类型的真值
tasks:
- ansible.builtin.shell: /usr/bin/some-command --parameter value
register: cmd_result
- ansible.builtin.assert:
that:
- "'not ready' not in cmd_result.stderr"
- "'gizmo enabled' in cmd_result.stdout"
如果您需要测试是否存在未通过 Ansible 配置声明性设置的文件,‘stat’ 模块是一个很好的选择
tasks:
- ansible.builtin.stat:
path: /path/to/something
register: p
- ansible.builtin.assert:
that:
- p.stat.exists and p.stat.isdir
如上所述,无需检查命令的返回值。Ansible 会自动检查它们。与其检查用户是否存在,不如考虑使用 user 模块来使其存在。
Ansible 是一个快速失败的系统,因此当创建该用户时出现错误时,它将停止剧本运行。您不必在后面检查它。
测试生命周期
如果您将一些基本的应用程序验证写入到您的剧本中,那么它们将在每次部署时运行。
因此,部署到本地开发虚拟机和暂存环境都将验证在生产部署之前是否一切按计划进行。
您的工作流程可能类似于以下流程
- Use the same playbook all the time with embedded tests in development
- Use the playbook to deploy to a staging environment (with the same playbooks) that simulates production
- Run an integration test battery written by your QA team against staging
- Deploy to production, with the same integrated tests.
如果您是生产 Web 服务,您的 QA 团队应该编写类似于集成测试电池的东西。这将包括 Selenium 测试或自动 API 测试,通常不会嵌入到您的 Ansible 剧本中。
但是,将一些基本健康检查纳入到您的剧本中是有意义的,并且在某些情况下,可能能够对远程节点运行 QA 测试电池的子集。这正是下一节要介绍的内容。
将测试与滚动更新集成
如果您已经阅读了 控制任务的运行位置:委托和本地操作,您可能会很快发现滚动更新模式可以扩展,并且您可以使用剧本运行的成功或失败来决定是否将机器添加到负载均衡器中。
这是嵌入式测试的完美结合
---
- hosts: webservers
serial: 5
pre_tasks:
- name: take out of load balancer pool
ansible.builtin.command: /usr/bin/take_out_of_pool {{ inventory_hostname }}
delegate_to: 127.0.0.1
tasks:
- ansible.builtin.include_role:
name: "{{ item }}"
loop:
- common
- webserver
- name: run any notified handlers
ansible.builtin.meta: flush_handlers
- name: test the configuration
ansible.builtin.include_role:
name: apply_testing_checks
post_tasks:
- name: add back to load balancer pool
ansible.builtin.command: /usr/bin/add_back_to_pool {{ inventory_hostname }}
delegate_to: 127.0.0.1
当然,在上面,"从池中取出"和"添加回来"步骤将被对 Ansible 负载均衡器模块或适当的 shell 命令的调用所取代。您可能还具有使用监视模块启动和结束机器的停机时间的步骤。
但是,从上面您可以看到,测试被用作一个门 - 如果未执行"apply_testing_checks"步骤,机器将不会返回到池中。
阅读有关"max_fail_percentage"的委托章节,您还可以控制多少个失败的测试将阻止滚动更新继续进行。
以上方法也可以修改为从测试机器远程运行一个步骤到一个机器
---
- hosts: webservers
serial: 5
pre_tasks:
- name: take out of load balancer pool
ansible.builtin.command: /usr/bin/take_out_of_pool {{ inventory_hostname }}
delegate_to: 127.0.0.1
roles:
- common
- webserver
tasks:
- ansible.builtin.script: /srv/qa_team/app_testing_script.sh --server {{ inventory_hostname }}
delegate_to: testing_server
post_tasks:
- name: add back to load balancer pool
ansible.builtin.command: /usr/bin/add_back_to_pool {{ inventory_hostname }}
delegate_to: 127.0.0.1
在上面的示例中,脚本从测试服务器在将机器返回到池之前针对远程节点运行。
如果出现问题,请使用 Ansible 自动生成的重试文件来修复失败的少数服务器,以便仅在这些服务器上重复部署。
实现持续部署
如果需要,以上技术可以扩展到实现持续部署实践。
工作流程可能如下所示
- Write and use automation to deploy local development VMs
- Have a CI system like Jenkins deploy to a staging environment on every code change
- The deploy job calls testing scripts to pass/fail a build on every deploy
- If the deploy job succeeds, it runs the same deploy playbook against production inventory
一些 Ansible 用户使用以上方法每小时部署六到十二次,而不会将所有基础设施都离线。如果您希望达到这种程度,自动化 QA 的文化至关重要。
如果您仍然在进行大量的手动 QA,那么您仍然应该决定是否手动部署,但它仍然有助于使用上一节中介绍的滚动更新模式,并将一些基本健康检查纳入到使用‘script’、‘stat’、‘uri’和‘assert’等模块中。
结论
Ansible 认为您不需要另一个框架来验证基础设施是否确实如此。这是因为 Ansible 是一个基于顺序的系统,它将在主机出现未处理的错误时立即失败,并阻止对该主机的进一步配置。这将错误强制到顶部,并在 Ansible 运行结束时在摘要中显示它们。
但是,由于 Ansible 被设计为一个多层编排系统,因此可以非常容易地将测试集成到剧本运行的末尾,无论是使用松散的任务还是角色。与滚动更新一起使用时,测试步骤可以决定是否将机器放回负载均衡池中。
最后,由于 Ansible 错误会一直传播到 Ansible 程序本身的返回值,并且 Ansible 默认情况下以一种易于使用的基于推的模式运行,因此如果您希望使用它在持续集成/持续交付管道中推出系统,则 Ansible 是一个很好的步骤,如以上各节所述。
重点不应放在基础设施测试上,而应放在应用程序测试上。因此,我们强烈建议您与您的 QA 团队一起讨论,确定每次部署开发虚拟机时需要运行哪些测试,以及他们在每次部署时希望对暂存环境运行哪些测试。显然,在开发阶段,单元测试也很棒。但不要对您的剧本进行单元测试。Ansible 以声明方式描述资源的状态,因此您无需进行单元测试。但是,如果有些情况下您想确保某些事项,那很好,像 stat/assert 这样的模块非常适合此目的。
总而言之,测试是一个非常组织化和特定于站点的事情。每个人都应该进行测试,但最适合您环境的测试方法会因您部署的内容和使用它的人而异——但每个人都会从更强大、更可靠的部署系统中受益。
另请参见
- 集合索引
浏览现有集合、模块和插件
- 使用剧本
剧本入门
- 控制任务运行的位置:委托和本地操作
委托,对于处理负载均衡器、云和本地执行的步骤非常有用。
- 沟通
有问题?需要帮助?想分享您的想法?请访问 Ansible 沟通指南