amazon.aws.cloudwatch_metric_alarm 模块 – 创建/更新或删除 AWS CloudWatch “指标告警”

注意

此模块是 amazon.aws 集合 (版本 9.0.0) 的一部分。

如果您使用的是 ansible 软件包,则可能已安装此集合。它不包含在 ansible-core 中。要检查是否已安装它,请运行 ansible-galaxy collection list

要安装它,请使用:ansible-galaxy collection install amazon.aws。您需要进一步的要求才能使用此模块,请参阅 需求 以了解详细信息。

要在剧本中使用它,请指定:amazon.aws.cloudwatch_metric_alarm

amazon.aws 5.0.0 中的新增功能

概要

  • 可以创建或删除 AWS CloudWatch 指标告警。

  • 您希望对其发出告警的指标必须已存在。

  • 在 5.0.0 版本之前,此模块称为 community.aws.ec2_metric_alarm。使用方法没有改变。

  • 此模块最初添加到 community.aws 的 1.0.0 版本中。

别名:ec2_metric_alarm

需求

执行此模块的主机需要以下需求。

  • python >= 3.6

  • boto3 >= 1.28.0

  • botocore >= 1.31.0

参数

参数

注释

access_key

别名:aws_access_key_id、aws_access_key、ec2_access_key

字符串

AWS 访问密钥 ID。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

还可以按优先级递减的顺序使用 AWS_ACCESS_KEY_IDAWS_ACCESS_KEYEC2_ACCESS_KEY 环境变量。

aws_access_keyprofile 选项是互斥的。

aws_access_key_id 别名是在 5.1.0 版本中添加的,以与 AWS botocore SDK 保持一致。

ec2_access_key 别名已弃用,并将在 2024-12-01 之后的版本中删除。

EC2_ACCESS_KEY 环境变量的支持已弃用,并将在 2024-12-01 之后的版本中删除。

alarm_actions

列表 / 元素=字符串

当告警处于 alarm 状态时采取的操作名称列表,表示为 Amazon 资源名称 (ARN)。

默认值: []

aws_ca_bundle

路径

验证 SSL 证书时使用的 CA 证书包的位置。

还可以使用 AWS_CA_BUNDLE 环境变量。

aws_config

字典

修改 botocore 配置的字典。

可以在 AWS 文档中找到参数 https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html#botocore.config.Config

comparison

字符串

确定如何比较阈值。

选项

  • "GreaterThanOrEqualToThreshold"

  • "GreaterThanThreshold"

  • "LessThanThreshold"

  • "LessThanOrEqualToThreshold"

datapoints_to_alarm

整数

amazon.aws 8.2.0 中添加

必须违反才能触发告警的数据点数量。

debug_botocore_endpoint_logs

布尔值

使用 botocore.endpoint 日志记录器来解析在任务期间进行的唯一(而不是总计)"resource:action" API 调用,并将集合输出到任务结果中的 resource_actions 密钥。使用 aws_resource_action 回调将输出到剧本期间进行的总列表。

还可以使用 ANSIBLE_DEBUG_BOTOCORE_LOGS 环境变量。

选项

  • false ← (默认)

  • true

description

字符串

告警的更详细描述。

dimensions

字典

描述应用告警的指标的字典。

有关更多信息,请参阅 AWS 文档

https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_concepts.html#Dimension

endpoint_url

别名:ec2_url、aws_endpoint_url、s3_url

字符串

连接到的 URL,而不是默认的 AWS 端点。虽然这可以用于连接到其他兼容 AWS 的服务,但 amazon.aws 和 community.aws 集合仅针对 AWS 进行了测试。

也可以使用AWS_URLEC2_URL环境变量,优先级递减。

ec2_urls3_url别名已弃用,将在2024-12-01之后的一个版本中移除。

EC2_URL环境变量的支持已弃用,将在2024-12-01之后的一个版本中移除。

evaluate_low_sample_count_percentile

字符串

amazon.aws 8.2.0 中添加

仅用于基于百分比的告警。

如果指定ignore,则在数据点过少不足以进行统计显著性分析的期间,告警状态不会改变。

如果指定evaluate或省略此参数,则无论有多少数据点,都会评估告警并可能更改状态。

选项

  • "ignore"

  • "evaluate"

evaluation_periods

整数

在最终计算之前评估指标的次数。

extended_statistic

字符串

在 amazon.aws 5.5.0 中添加

指标名称中指定的指标的百分比统计数据。

insufficient_data_actions

列表 / 元素=字符串

当告警处于insufficient_data状态时,要采取的操作名称列表。

默认值: []

metric_name

别名:metric

字符串

被监控指标的名称(例如CPUUtilization)。

指标必须已存在。

metrics

列表 / 元素=字典

在 amazon.aws 5.5.0 中添加

一系列 MetricDataQuery 结构,使您可以基于度量数学表达式的结果创建告警。

默认值: []

account_id

字符串

如果这是一个跨账户告警,则指标所在的账户的 ID。

expression

字符串

此字段可以包含 Metrics Insights 查询或要对返回数据执行的度量数学表达式。

id

字符串 / 必需

用于将此对象与响应中的结果关联的简短名称。

label

字符串

此指标或表达式的易于理解的标签。

metric_stat

字典

要返回的指标,以及统计数据、周期和单位。

metric

字典

要返回的指标,包括指标名称、命名空间和维度。

dimensions

列表 / 元素=字典

构成指标标识一部分的名称/值对。

name

字符串 / 必需

维度的名称。

value

字符串 / 必需

维度的值。

metric_name

字符串 / 必需

指标的名称。

namespace

字符串

指标的命名空间。

period

整数 / 必需

返回数据点的粒度(以秒为单位)。

stat

字符串 / 必需

要返回的统计数据。它可以包含任何 CloudWatch 统计数据或扩展统计数据。

unit

字符串

存储指标时使用的单位。

period

整数

返回数据点的粒度(以秒为单位)。

return_data

布尔值

此选项指示是否返回此指标的时间戳和原始数据值。

选项

  • false

  • true

name

字符串 / 必需

告警的唯一名称。

namespace

字符串

相应命名空间的名称(AWS/EC2System/Linux等),它决定了告警在 CloudWatch 中显示的类别。

ok_actions

列表 / 元素=字符串

当告警处于ok状态时要采取的操作名称列表,表示为 Amazon 资源名称 (ARN)。

默认值: []

period

整数

指标评估之间的时间(以秒为单位)。

profile

别名:aws_profile

字符串

要用于身份验证的命名 AWS 配置文件。

有关命名配置文件的更多信息,请参阅 AWS 文档https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-profiles.html

也可以使用AWS_PROFILE环境变量。

profile选项与aws_access_keyaws_secret_keysecurity_token选项互斥。

region

别名:aws_region, ec2_region

字符串

要使用的 AWS 区域。

对于 IAM、Route53 和 CloudFront 等全局服务,将忽略region

也可以使用AWS_REGIONEC2_REGION环境变量。

有关更多信息,请参阅 Amazon AWS 文档http://docs.aws.amazon.com/general/latest/gr/rande.html#ec2_region

ec2_region别名已弃用,将在2024-12-01之后的一个版本中移除。

EC2_REGION环境变量的支持已弃用,将在2024-12-01之后的一个版本中移除。

secret_key

别名:aws_secret_access_key, aws_secret_key, ec2_secret_key

字符串

AWS 密钥。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

也可以使用AWS_SECRET_ACCESS_KEYAWS_SECRET_KEYEC2_SECRET_KEY环境变量,优先级递减。

secret_keyprofile选项互斥。

为了与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了aws_secret_access_key别名。

ec2_secret_key别名已弃用,将在2024-12-01之后的一个版本中移除。

EC2_SECRET_KEY环境变量的支持已弃用,将在2024-12-01之后的一个版本中移除。

session_token

别名:aws_session_token, security_token, aws_security_token, access_token

字符串

与临时凭证一起使用的 AWS STS 会话令牌。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

也可以使用AWS_SESSION_TOKENAWS_SECURITY_TOKENEC2_SECURITY_TOKEN环境变量,优先级递减。

security_tokenprofile选项互斥。

在 3.2.0 版本中添加了别名aws_session_tokensession_token,在 6.0.0 版本中将参数名称从security_token重命名为session_token

security_tokenaws_security_tokenaccess_token别名已弃用,将在2024-12-01之后的一个版本中移除。

EC2_SECRET_KEYAWS_SECURITY_TOKEN环境变量的支持已弃用,将在2024-12-01之后的一个版本中移除。

state

字符串

注册或注销告警。

选项

  • "present" ← (默认)

  • "absent"

statistic

字符串

应用于指标的操作。

periodevaluation_periods一起使用来确定比较值。

选项

  • "SampleCount"

  • "Average"

  • "Sum"

  • "Minimum"

  • "Maximum"

threshold

浮点数

设置触发告警的最小/最大边界。

treat_missing_data

字符串

设置告警如何处理缺失的数据点。

选项

  • "breaching"

  • "notBreaching"

  • "ignore"

  • "missing" ← (默认)

unit

字符串

阈值的度量单位。

选项

  • "Seconds"

  • "Microseconds"

  • "Milliseconds"

  • "Bytes"

  • "Kilobytes"

  • "Megabytes"

  • "Gigabytes"

  • "Terabytes"

  • "Bits"

  • "Kilobits"

  • "Megabits"

  • "Gigabits"

  • "Terabits"

  • "Percent"

  • "Count"

  • "Bytes/Second"

  • "Kilobytes/Second"

  • "Megabytes/Second"

  • "Gigabytes/Second"

  • "Terabytes/Second"

  • "Bits/Second"

  • "Kilobits/Second"

  • "Megabits/Second"

  • "Gigabits/Second"

  • "Terabits/Second"

  • "Count/Second"

  • "None"

validate_certs

布尔值

设置为false时,将不会验证与 AWS API 通信的 SSL 证书。

强烈建议不要设置validate_certs=false,可以考虑改为设置aws_ca_bundle

选项

  • false

  • true ← (默认)

备注

注意

  • 警告:对于模块,环境变量和配置文件是从 Ansible 的“主机”上下文而不是“控制器”上下文读取的。因此,可能需要将文件显式复制到“主机”。对于查找和连接插件,环境变量和配置文件是从 Ansible 的“控制器”上下文而不是“主机”上下文读取的。

  • Ansible 使用的 AWS SDK (boto3) 也可能从 Ansible “主机”上下文(通常为~/.aws/credentials)中的配置文件读取凭据和其他设置的默认值,例如区域。有关更多信息,请参阅https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html

示例

- name: create alarm
  amazon.aws.cloudwatch_metric_alarm:
    state: present
    region: ap-southeast-2
    name: "cpu-low"
    metric_name: "CPUUtilization"
    namespace: "AWS/EC2"
    statistic: Average
    comparison: "LessThanOrEqualToThreshold"
    threshold: 5.0
    period: 300
    evaluate_low_sample_count_percentile: "ignore"
    evaluation_periods: 3
    unit: "Percent"
    description: "This will alarm when a instance's CPU usage average is lower than 5% for 15 minutes"
    dimensions: {'InstanceId': 'i-XXX'}
    alarm_actions: ["action1", "action2"]

- name: create alarm with metrics
  amazon.aws.cloudwatch_metric_alarm:
    state: present
    region: ap-southeast-2
    name: "cpu-low"
    metrics:
      - id: 'CPU'
        metric_stat:
          metric:
            dimensions:
              name: "InstanceId"
              value: "i-xx"
            metric_name: "CPUUtilization"
            namespace: "AWS/EC2"
          period: "300"
          stat: "Average"
          unit: "Percent"
        return_data: false
    alarm_actions: ["action1", "action2"]

- name: Create an alarm to recover a failed instance
  amazon.aws.cloudwatch_metric_alarm:
    state: present
    region: us-west-1
    name: "recover-instance"
    metric: "StatusCheckFailed_System"
    namespace: "AWS/EC2"
    statistic: "Minimum"
    comparison: "GreaterThanOrEqualToThreshold"
    threshold: 1.0
    period: 60
    evaluation_periods: 2
    unit: "Count"
    description: "This will recover an instance when it fails"
    dimensions: {"InstanceId":'i-XXX'}
    alarm_actions: ["arn:aws:automate:us-west-1:ec2:recover"]

返回值

常见返回值已在此处记录此处,以下是此模块特有的字段

描述

actions_enabled

布尔值

指示是否应在告警状态发生任何更改时执行操作。

返回:始终

alarm_actions

列表 / 元素=字符串

当此告警从任何其他状态转换为 ALARM 状态时要执行的操作。

返回:始终

alarm_arn

字符串

告警的 Amazon 资源名称 (ARN)。

返回:始终

comparison

字符串

比较指定的统计数据和阈值时要使用的算术运算。

返回:始终

description

字符串

告警的描述。

返回:始终

dimensions

列表 / 元素=字典

指标的维度。

返回:始终

name

字符串

维度的名称。

返回:始终

value

字符串

维度的值。

返回:始终

evaluate_low_sample_count_percentile

字符串

仅用于基于百分比的告警。

如果为ignore,则在数据点过少不足以进行统计显著性分析的期间,告警状态不会改变。

如果为evaluate或未使用此参数,则始终评估告警并可能更改状态。

返回:始终

evaluation_periods

整数

将数据与指定阈值进行比较的周期数。

返回:始终

extended_statistic

字符串

与告警关联的指标的百分比统计数据。

返回:始终

insufficient_data_actions

列表 / 元素=字符串

当此告警从任何其他状态转换为 INSUFFICIENT_DATA 状态时要执行的操作。

返回:始终

last_updated

字符串

上次更新告警配置的时间戳。

返回:始终

metric

字符串

被监控指标的名称(例如CPUUtilization)。

返回:始终

metric_name

字符串

被监控指标的名称(例如CPUUtilization)。

返回:始终

metrics

列表 / 元素=字典

MetricDataQuery 结构数组,用于基于度量数学表达式创建的告警。

返回:始终

name

字符串

告警的唯一名称。

返回:始终

namespace

字符串

相应命名空间的名称(AWS/EC2System/Linux等)。

决定它在 CloudWatch 中显示的类别。

返回:始终

ok_actions

列表 / 元素=字符串

当此告警从任何其他状态转换到 OK 状态时要执行的操作。

返回:始终

period

整数

每次评估`MetricName`中指定的指标时使用的长度(秒)。

有效值为 10、30 和 60 的任何倍数。

返回:始终

state_reason

字符串

告警状态的解释说明,文本格式。

返回:始终

state_value

字符串

告警的状态值。

返回:始终

statistic

字符串

与告警关联的指标的统计信息(非百分位数)。

返回:始终

threshold

浮点数

与指定统计信息进行比较的值。

返回:始终

treat_missing_data

字符串

设置告警如何处理缺失的数据点。

返回:始终

unit

字符串

存储指标时使用的单位。

返回:始终

作者

  • Zacharie Eakin (@Zeekin)