community.aws.glue_job 模块 – 管理 AWS Glue 作业

注意

此模块是 community.aws 集合 (版本 9.0.0) 的一部分。

如果您使用的是 ansible 包,则可能已安装此集合。它不包含在 ansible-core 中。要检查是否已安装它,请运行 ansible-galaxy collection list

要安装它,请使用:ansible-galaxy collection install community.aws。您需要其他要求才能使用此模块,请参阅 要求 获取详细信息。

要在 playbook 中使用它,请指定:community.aws.glue_job

community.aws 1.0.0 中的新增功能

概要

  • 管理 AWS Glue 作业。有关详细信息,请参阅 https://aws.amazon.com/glue/

  • 在 5.0.0 版本之前,此模块称为 community.aws.aws_glue_job。用法没有改变。

别名:aws_glue_job

要求

执行此模块的主机需要以下要求。

  • python >= 3.6

  • boto3 >= 1.28.0

  • botocore >= 1.31.0

参数

参数

注释

access_key

别名:aws_access_key_id、aws_access_key、ec2_access_key

字符串

AWS 访问密钥 ID。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

也可以按优先级递减的顺序使用 AWS_ACCESS_KEY_IDAWS_ACCESS_KEYEC2_ACCESS_KEY 环境变量。

aws_access_keyprofile 选项是互斥的。

为与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了 aws_access_key_id 别名。

ec2_access_key 别名已弃用,将在 2024-12-01 之后的一个版本中移除。

EC2_ACCESS_KEY 环境变量的支持已弃用,将在 2024-12-01 之后的一个版本中移除。

allocated_capacity

整数

分配给此作业的 AWS Glue 数据处理单元 (DPU) 数量。可以分配 2 到 100 个 DPU;默认为 10。DPU 是处理能力的相对衡量标准,由 4 个 vCPU 的计算能力和 16 GB 的内存组成。

aws_ca_bundle

路径

验证 SSL 证书时要使用的 CA 捆绑包的位置。

也可以使用 AWS_CA_BUNDLE 环境变量。

aws_config

字典

用于修改 botocore 配置的字典。

可以在 AWS 文档中找到参数 https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html#botocore.config.Config

command_name

字符串

作业命令的名称。这必须是“glueetl”。

默认值: "glueetl"

command_python_version

字符串

community.aws 2.2.0 中新增

用于执行 Python shell 作业的 Python 版本。

AWS 目前支持 '2''3'

command_script_location

字符串

执行作业的脚本的 S3 路径。

state=present 时必填。

connections

列表 / 元素=字符串

此作业使用的 Glue 连接列表。

debug_botocore_endpoint_logs

布尔值

使用 botocore.endpoint 记录器来解析在任务期间进行的唯一(而不是总计)"resource:action" API 调用,并将集合输出到任务结果中的 resource_actions 密钥。使用 aws_resource_action 回调将输出到 playbook 期间进行的总列表。

也可以使用 ANSIBLE_DEBUG_BOTOCORE_LOGS 环境变量。

选项

  • false ← (默认)

  • true

default_arguments

字典

此作业的默认参数字典。您可以在此处指定自己的作业执行脚本使用的参数,以及 AWS Glue 本身使用的参数。

description

字符串

正在定义的作业的描述。

endpoint_url

别名:ec2_url, aws_endpoint_url, s3_url

字符串

用于连接的 URL,替代默认的 AWS 端点。虽然这可以用于连接到其他兼容 AWS 的服务,但 amazon.aws 和 community.aws 集合仅针对 AWS 进行过测试。

还可以使用 AWS_URLEC2_URL 环境变量,优先级依次递减。

ec2_urls3_url 别名已弃用,将在 2024-12-01 之后的发行版中移除。

EC2_URL 环境变量的支持已弃用,将在 2024-12-01 之后的发行版中移除。

glue_version

字符串

community.aws 1.5.0 版本中添加

Glue 版本决定 AWS Glue 支持的 Apache Spark 和 Python 版本。

max_concurrent_runs

整数

允许作业同时运行的最大次数。默认为 1。达到此阈值时将返回错误。您可以指定的最大值受服务限制控制。

max_retries

整数

如果作业失败,则重试此作业的最大次数。

name

字符串 / 必填

您为此作业定义分配的名称。它必须在您的帐户中唯一。

number_of_workers

整数

community.aws 1.5.0 版本中添加

作业运行时分配的已定义 workerType 工作进程数。

profile

别名:aws_profile

字符串

用于身份验证的命名 AWS 配置文件。

有关命名配置文件的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-profiles.html

还可以使用 AWS_PROFILE 环境变量。

profile 选项与 aws_access_keyaws_secret_keysecurity_token 选项互斥。

purge_tags

布尔值

如果 purge_tags=true 并且设置了 tags,则将从资源中清除现有标签,以完全匹配 tags 参数定义的内容。

如果没有设置 tags 参数,则即使 purge_tags=True,也不会修改标签。

aws: 开头的标签键由 Amazon 保留,不能修改。因此,对于 purge_tags 参数,将忽略它们。有关更多信息,请参阅 Amazon 文档 https://docs.aws.amazon.com/general/latest/gr/aws_tagging.html#tag-conventions

选项

  • false

  • true ← (默认)

region

别名:aws_region, ec2_region

字符串

要使用的 AWS 区域。

对于 IAM、Route53 和 CloudFront 等全球服务,将忽略 region

还可以使用 AWS_REGIONEC2_REGION 环境变量。

有关更多信息,请参阅 Amazon AWS 文档 http://docs.aws.amazon.com/general/latest/gr/rande.html#ec2_region

ec2_region 别名已弃用,将在 2024-12-01 之后的发行版中移除。

EC2_REGION 环境变量的支持已弃用,将在 2024-12-01 之后的发行版中移除。

role

字符串

与此作业关联的 IAM 角色的名称或 ARN。

state=present 时必填。

secret_key

别名:aws_secret_access_key, aws_secret_key, ec2_secret_key

字符串

AWS 密钥访问密钥。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

还可以使用 AWS_SECRET_ACCESS_KEYAWS_SECRET_KEYEC2_SECRET_KEY 环境变量,优先级依次递减。

secret_keyprofile 选项互斥。

为了与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了 aws_secret_access_key 别名。

ec2_secret_key 别名已弃用,将在 2024-12-01 之后的发行版中移除。

EC2_SECRET_KEY 环境变量的支持已弃用,将在 2024-12-01 之后的发行版中移除。

session_token

别名:aws_session_token, security_token, aws_security_token, access_token

字符串

与临时凭据一起使用的 AWS STS 会话令牌。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

还可以使用 AWS_SESSION_TOKENAWS_SECURITY_TOKENEC2_SECURITY_TOKEN 环境变量,优先级依次递减。

security_tokenprofile 选项互斥。

在 3.2.0 版本中添加了 aws_session_tokensession_token 别名,在 6.0.0 版本中将参数名称从 security_token 重命名为 session_token

security_tokenaws_security_tokenaccess_token 别名已弃用,将在 2024-12-01 之后的发行版中移除。

EC2_SECRET_KEYAWS_SECURITY_TOKEN 环境变量的支持已弃用,将在 2024-12-01 之后的发行版中移除。

state

字符串 / 必填

创建或删除 AWS Glue 作业。

选项

  • "present"

  • "absent"

tags

别名:resource_tags

字典

表示要应用于资源的标签的字典。

如果没有设置 tags 参数,则不会修改标签。

timeout

整数

作业超时时间(分钟)。

validate_certs

布尔值

设置为 false 时,将不会验证与 AWS API 通信的 SSL 证书。

强烈建议不要设置 validate_certs=false,作为替代方案,请考虑设置 aws_ca_bundle

选项

  • false

  • true ← (默认)

worker_type

字符串

community.aws 1.5.0 版本中添加

作业运行时分配的预定义工作进程类型。

community.aws 7.2.0 版本中添加了对实例类型 G.4X( C(G.8X 的支持。

选项

  • "Standard"

  • "G.1X"

  • "G.2X"

  • "G.4X"

  • "G.8X"

注释

注意

  • 在 2.2.0 版本中添加了对 tagspurge_tags 的支持。

  • 注意:对于模块,环境变量和配置文件是从 Ansible 的“主机”上下文读取的,而不是“控制器”上下文。因此,可能需要将文件显式复制到“主机”。对于查找和连接插件,环境变量和配置文件是从 Ansible 的“控制器”上下文读取的,而不是“主机”上下文。

  • Ansible 使用的 AWS SDK (boto3) 还可以从 Ansible 的“主机”上下文(通常为 ~/.aws/credentials)中的配置文件读取凭据和其他设置(例如区域)的默认值。有关更多信息,请参阅 https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html

示例

# Note: These examples do not set authentication details, see the AWS Guide for details.

# Create an AWS Glue job
- community.aws.glue_job:
    command_script_location: "s3://s3bucket/script.py"
    default_arguments:
      "--extra-py-files": s3://s3bucket/script-package.zip
      "--TempDir": "s3://s3bucket/temp/"
    name: my-glue-job
    role: my-iam-role
    state: present

# Delete an AWS Glue job
- community.aws.glue_job:
    name: my-glue-job
    state: absent

返回值

此处记录了常见的返回值 此处,以下是此模块特有的字段

Key

描述

allocated_capacity

整数

分配给此作业运行的 AWS Glue 数据处理单元 (DPU) 数量。可以分配 2 到 100 个 DPU;默认为 10。DPU 是处理能力的相对度量,包含 4 个 vCPU 的计算能力和 16 GB 的内存。

返回:state 为 present 时

示例:10

command

复杂类型

执行此作业的 JobCommand。

返回:state 为 present 时

name

字符串

作业命令的名称。

返回:state 为 present 时

示例:"glueetl"

python_version

字符串

指定 Python 版本。

返回:state 为 present 时

示例:"3"

script_location

字符串

指定执行作业的脚本的 S3 路径。

返回:state 为 present 时

示例:"mybucket/myscript.py"

connections

字典

此作业使用的连接。

返回:state 为 present 时

示例: "{ Connections: [ 'list', 'of', 'connections' ] }"

创建时间 (created_on)

字符串

此作业定义的创建时间和日期。

返回:state 为 present 时

示例: "2018-04-21T05:19:58.326000+00:00"

default_arguments

字典

此作业的默认参数,指定为名称-值对。

返回:state 为 present 时

示例: {"mykey1": "myvalue1"}

description

字符串

正在定义的作业的描述。

返回:state 为 present 时

示例: "My first Glue job"

执行属性 (execution_property)

复杂类型

一个ExecutionProperty,指定此作业允许的最大并发运行数。

返回值: 始终返回

max_concurrent_runs

整数

允许作业同时运行的最大次数。默认为 1。达到此阈值时将返回错误。您可以指定的最大值受服务限制控制。

返回:state 为 present 时

示例: 1

glue_version

字符串

Glue 版本。

返回:state 为 present 时

示例: "2.0"

作业名称 (job_name)

字符串

AWS Glue 作业的名称。

返回值: 始终返回

示例: "my-glue-job"

最后修改时间 (last_modified_on)

字符串

此作业定义最后修改的时间点。

返回:state 为 present 时

示例: "2018-04-21T05:19:58.326000+00:00"

max_retries

整数

JobRun 失败后,重试此作业的最大次数。

返回:state 为 present 时

示例: 5

name

字符串

分配给此作业定义的名称。

返回:state 为 present 时

示例: "my-glue-job"

role

字符串

与此作业关联的 IAM 角色的名称或 ARN。

返回:state 为 present 时

示例: "my-iam-role"

timeout

整数

作业超时时间(分钟)。

返回:state 为 present 时

示例: 300

作者

  • Rob White (@wimnat)

  • Vijayanand Sharma (@vijayanandsharma)