community.aws.glue_job 模块 – 管理 AWS Glue 作业
注意
此模块是 community.aws 集合 (版本 9.0.0) 的一部分。
如果您使用的是 ansible
包,则可能已安装此集合。它不包含在 ansible-core
中。要检查是否已安装它,请运行 ansible-galaxy collection list
。
要安装它,请使用:ansible-galaxy collection install community.aws
。您需要其他要求才能使用此模块,请参阅 要求 获取详细信息。
要在 playbook 中使用它,请指定:community.aws.glue_job
。
community.aws 1.0.0 中的新增功能
概要
管理 AWS Glue 作业。有关详细信息,请参阅 https://aws.amazon.com/glue/。
在 5.0.0 版本之前,此模块称为
community.aws.aws_glue_job
。用法没有改变。
别名:aws_glue_job
要求
执行此模块的主机需要以下要求。
python >= 3.6
boto3 >= 1.28.0
botocore >= 1.31.0
参数
参数 |
注释 |
---|---|
AWS 访问密钥 ID。 有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys。 也可以按优先级递减的顺序使用 aws_access_key 和 profile 选项是互斥的。 为与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了 aws_access_key_id 别名。 ec2_access_key 别名已弃用,将在 2024-12-01 之后的一个版本中移除。
|
|
分配给此作业的 AWS Glue 数据处理单元 (DPU) 数量。可以分配 2 到 100 个 DPU;默认为 10。DPU 是处理能力的相对衡量标准,由 4 个 vCPU 的计算能力和 16 GB 的内存组成。 |
|
验证 SSL 证书时要使用的 CA 捆绑包的位置。 也可以使用 |
|
用于修改 botocore 配置的字典。 可以在 AWS 文档中找到参数 https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html#botocore.config.Config。 |
|
作业命令的名称。这必须是“glueetl”。 默认值: |
|
用于执行 Python shell 作业的 Python 版本。 AWS 目前支持 |
|
执行作业的脚本的 S3 路径。 当 state=present 时必填。 |
|
此作业使用的 Glue 连接列表。 |
|
使用 也可以使用 选项
|
|
此作业的默认参数字典。您可以在此处指定自己的作业执行脚本使用的参数,以及 AWS Glue 本身使用的参数。 |
|
正在定义的作业的描述。 |
|
用于连接的 URL,替代默认的 AWS 端点。虽然这可以用于连接到其他兼容 AWS 的服务,但 amazon.aws 和 community.aws 集合仅针对 AWS 进行过测试。 还可以使用 ec2_url 和 s3_url 别名已弃用,将在 2024-12-01 之后的发行版中移除。 对 |
|
Glue 版本决定 AWS Glue 支持的 Apache Spark 和 Python 版本。 |
|
允许作业同时运行的最大次数。默认为 1。达到此阈值时将返回错误。您可以指定的最大值受服务限制控制。 |
|
如果作业失败,则重试此作业的最大次数。 |
|
您为此作业定义分配的名称。它必须在您的帐户中唯一。 |
|
作业运行时分配的已定义 workerType 工作进程数。 |
|
用于身份验证的命名 AWS 配置文件。 有关命名配置文件的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-profiles.html。 还可以使用 profile 选项与 aws_access_key、aws_secret_key 和 security_token 选项互斥。 |
|
如果 如果没有设置 以 选项
|
|
要使用的 AWS 区域。 对于 IAM、Route53 和 CloudFront 等全球服务,将忽略 region。 还可以使用 有关更多信息,请参阅 Amazon AWS 文档 http://docs.aws.amazon.com/general/latest/gr/rande.html#ec2_region。 ec2_region 别名已弃用,将在 2024-12-01 之后的发行版中移除。 对 |
|
与此作业关联的 IAM 角色的名称或 ARN。 当 state=present 时必填。 |
|
AWS 密钥访问密钥。 有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys。 还可以使用 secret_key 和 profile 选项互斥。 为了与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了 aws_secret_access_key 别名。 ec2_secret_key 别名已弃用,将在 2024-12-01 之后的发行版中移除。 对 |
|
与临时凭据一起使用的 AWS STS 会话令牌。 有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys。 还可以使用 security_token 和 profile 选项互斥。 在 3.2.0 版本中添加了 aws_session_token 和 session_token 别名,在 6.0.0 版本中将参数名称从 security_token 重命名为 session_token。 security_token、aws_security_token 和 access_token 别名已弃用,将在 2024-12-01 之后的发行版中移除。 对 |
|
创建或删除 AWS Glue 作业。 选项
|
|
表示要应用于资源的标签的字典。 如果没有设置 |
|
作业超时时间(分钟)。 |
|
设置为 强烈建议不要设置 validate_certs=false,作为替代方案,请考虑设置 aws_ca_bundle。 选项
|
|
作业运行时分配的预定义工作进程类型。 community.aws 7.2.0 版本中添加了对实例类型 选项
|
注释
注意
在 2.2.0 版本中添加了对 tags 和 purge_tags 的支持。
注意:对于模块,环境变量和配置文件是从 Ansible 的“主机”上下文读取的,而不是“控制器”上下文。因此,可能需要将文件显式复制到“主机”。对于查找和连接插件,环境变量和配置文件是从 Ansible 的“控制器”上下文读取的,而不是“主机”上下文。
Ansible 使用的 AWS SDK (boto3) 还可以从 Ansible 的“主机”上下文(通常为
~/.aws/credentials
)中的配置文件读取凭据和其他设置(例如区域)的默认值。有关更多信息,请参阅 https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html。
示例
# Note: These examples do not set authentication details, see the AWS Guide for details.
# Create an AWS Glue job
- community.aws.glue_job:
command_script_location: "s3://s3bucket/script.py"
default_arguments:
"--extra-py-files": s3://s3bucket/script-package.zip
"--TempDir": "s3://s3bucket/temp/"
name: my-glue-job
role: my-iam-role
state: present
# Delete an AWS Glue job
- community.aws.glue_job:
name: my-glue-job
state: absent
返回值
此处记录了常见的返回值 此处,以下是此模块特有的字段
Key |
描述 |
---|---|
分配给此作业运行的 AWS Glue 数据处理单元 (DPU) 数量。可以分配 2 到 100 个 DPU;默认为 10。DPU 是处理能力的相对度量,包含 4 个 vCPU 的计算能力和 16 GB 的内存。 返回:state 为 present 时 示例: |
|
执行此作业的 JobCommand。 返回:state 为 present 时 |
|
作业命令的名称。 返回:state 为 present 时 示例: |
|
指定 Python 版本。 返回:state 为 present 时 示例: |
|
指定执行作业的脚本的 S3 路径。 返回:state 为 present 时 示例: |
|
此作业使用的连接。 返回:state 为 present 时 示例: |
|
此作业定义的创建时间和日期。 返回:state 为 present 时 示例: |
|
此作业的默认参数,指定为名称-值对。 返回:state 为 present 时 示例: |
|
正在定义的作业的描述。 返回:state 为 present 时 示例: |
|
一个ExecutionProperty,指定此作业允许的最大并发运行数。 返回值: 始终返回 |
|
允许作业同时运行的最大次数。默认为 1。达到此阈值时将返回错误。您可以指定的最大值受服务限制控制。 返回:state 为 present 时 示例: |
|
Glue 版本。 返回:state 为 present 时 示例: |
|
AWS Glue 作业的名称。 返回值: 始终返回 示例: |
|
此作业定义最后修改的时间点。 返回:state 为 present 时 示例: |
|
JobRun 失败后,重试此作业的最大次数。 返回:state 为 present 时 示例: |
|
分配给此作业定义的名称。 返回:state 为 present 时 示例: |
|
与此作业关联的 IAM 角色的名称或 ARN。 返回:state 为 present 时 示例: |
|
作业超时时间(分钟)。 返回:state 为 present 时 示例: |