community.aws.glue_crawler 模块 – 管理 AWS Glue 爬虫程序

注意

此模块是 community.aws 集合 (版本 9.0.0) 的一部分。

如果您使用的是 ansible 包,则可能已经安装了此集合。它不包含在 ansible-core 中。要检查它是否已安装,请运行 ansible-galaxy collection list

要安装它,请使用: ansible-galaxy collection install community.aws。您需要其他要求才能使用此模块,有关详细信息,请参阅 要求

要在剧本中使用它,请指定: community.aws.glue_crawler

community.aws 4.1.0 中的新增功能

概要

  • 管理 AWS Glue 爬虫程序。有关详细信息,请参阅 https://aws.amazon.com/glue/

  • 在 5.0.0 版本之前,此模块称为 community.aws.aws_glue_crawler。用法没有改变。

别名:aws_glue_crawler

要求

执行此模块的主机需要以下要求。

  • python >= 3.6

  • boto3 >= 1.28.0

  • botocore >= 1.31.0

参数

参数

注释

access_key

别名:aws_access_key_id, aws_access_key, ec2_access_key

字符串

AWS 访问密钥 ID。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

也可以按优先级递减的顺序使用 AWS_ACCESS_KEY_IDAWS_ACCESS_KEYEC2_ACCESS_KEY 环境变量。

aws_access_keyprofile 选项是互斥的。

为了与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了 aws_access_key_id 别名。

ec2_access_key 别名已被弃用,将在 2024-12-01 之后的一个版本中删除。

EC2_ACCESS_KEY 环境变量的支持已被弃用,将在 2024-12-01 之后的一个版本中删除。

aws_ca_bundle

路径

验证 SSL 证书时使用的 CA 证书包的位置。

也可以使用 AWS_CA_BUNDLE 环境变量。

aws_config

字典

用于修改 botocore 配置的字典。

可以在 AWS 文档中找到参数 https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html#botocore.config.Config

database_name

字符串

写入结果的数据库名称。

debug_botocore_endpoint_logs

布尔值

使用 botocore.endpoint 日志记录器来解析任务期间执行的唯一(而非总计)"resource:action" API 调用,并将集合输出到任务结果中的 resource_actions 密钥。使用 aws_resource_action 回调将输出到剧本期间执行的总列表。

也可以使用 ANSIBLE_DEBUG_BOTOCORE_LOGS 环境变量。

选项

  • false ← (默认值)

  • true

description

字符串

正在定义的爬虫程序的描述。

endpoint_url

别名:ec2_url, aws_endpoint_url, s3_url

字符串

连接到的 URL,而不是默认的 AWS 端点。虽然这可以用于连接到其他与 AWS 兼容的服务,但 amazon.aws 和 community.aws 集合仅针对 AWS 进行测试。

也可以按优先级递减的顺序使用 AWS_URLEC2_URL 环境变量。

ec2_urls3_url 别名已弃用,将在 2024-12-01 之后的一个版本中移除。

EC2_URL 环境变量的支持已弃用,将在 2024-12-01 之后的一个版本中移除。

名称

字符串 / 必填

您为此爬虫定义分配的名称。它在您的帐户中必须唯一。

配置文件

别名:aws_profile

字符串

用于身份验证的命名 AWS 配置文件。

有关命名配置文件的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-profiles.html

也可以使用 AWS_PROFILE 环境变量。

profile 选项与 aws_access_keyaws_secret_keysecurity_token 选项互斥。

purge_tags

布尔值

如果 purge_tags=true 且设置了 tags,则将从资源中清除现有标签,以完全匹配 tags 参数定义的内容。

如果没有设置 tags 参数,则即使 purge_tags=True,也不会修改标签。

aws: 开头的标签键由 Amazon 保留,无法修改。因此,在 purge_tags 参数中将忽略它们。有关更多信息,请参阅 Amazon 文档 https://docs.aws.amazon.com/general/latest/gr/aws_tagging.html#tag-conventions

选项

  • false

  • true ← (默认)

recrawl_policy

字典

指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹的策略。

recrawl_behavior

字符串

指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹。

支持的选项为 CRAWL_EVERYTHINGCRAWL_NEW_FOLDERS_ONLY

区域

别名:aws_region, ec2_region

字符串

要使用的 AWS 区域。

对于 IAM、Route53 和 CloudFront 等全局服务,将忽略 region

也可以使用 AWS_REGIONEC2_REGION 环境变量。

有关更多信息,请参阅 Amazon AWS 文档 http://docs.aws.amazon.com/general/latest/gr/rande.html#ec2_region

ec2_region 别名已弃用,将在 2024-12-01 之后的一个版本中移除。

EC2_REGION 环境变量的支持已弃用,将在 2024-12-01 之后的一个版本中移除。

角色

字符串

与此爬虫关联的 IAM 角色的名称或 ARN。

state=present 时必填。

schema_change_policy

字典

爬虫的更新和删除行为策略。

delete_behavior

字符串

当爬虫找到已删除的对象时的删除行为。

支持的选项为 LOGDELETE_FROM_DATABASEDEPRECATE_IN_DATABASE

update_behavior

字符串

当爬虫找到已更改的模式时的更新行为。

支持的选项为 LOGUPDATE_IN_DATABASE

密钥

别名:aws_secret_access_key, aws_secret_key, ec2_secret_key

字符串

AWS 密钥。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

也可以按优先级递减的顺序使用 AWS_SECRET_ACCESS_KEYAWS_SECRET_KEYEC2_SECRET_KEY 环境变量。

secret_keyprofile 选项互斥。

为了与 AWS botocore SDK 保持一致,在 5.1.0 版本中添加了 aws_secret_access_key 别名。

ec2_secret_key 别名已弃用,将在 2024-12-01 之后的一个版本中移除。

EC2_SECRET_KEY 环境变量的支持已弃用,将在 2024-12-01 之后的一个版本中移除。

会话令牌

别名:aws_session_token, security_token, aws_security_token, access_token

字符串

与临时凭据一起使用的 AWS STS 会话令牌。

有关访问令牌的更多信息,请参阅 AWS 文档 https://docs.aws.amazon.com/general/latest/gr/aws-sec-cred-types.html#access-keys-and-secret-access-keys

也可以按优先级递减的顺序使用 AWS_SESSION_TOKENAWS_SECURITY_TOKENEC2_SECURITY_TOKEN 环境变量。

security_tokenprofile 选项互斥。

在 3.2.0 版本中添加了 aws_session_tokensession_token 别名,在 6.0.0 版本中将参数名称从 security_token 重命名为 session_token

security_tokenaws_security_tokenaccess_token 别名已弃用,将在 2024-12-01 之后的一个版本中移除。

EC2_SECRET_KEYAWS_SECURITY_TOKEN 环境变量的支持已弃用,将在 2024-12-01 之后的一个版本中移除。

状态

字符串 / 必填

创建或删除 AWS Glue 爬虫。

选项

  • "present"

  • "absent"

表前缀

字符串

用于创建的目录表的表前缀。

标签

别名:resource_tags

字典

表示要应用于资源的标签的字典。

如果没有设置 tags 参数,则不会修改标签。

目标

字典

要爬取的目标列表。请参见下面的示例。

state=present 时必填。

validate_certs

布尔值

设置为 false 时,将不会验证与 AWS API 通信的 SSL 证书。

强烈建议不要设置 validate_certs=false,作为替代方案,请考虑设置 aws_ca_bundle

选项

  • false

  • true ← (默认)

注释

注意

  • 警告:对于模块,环境变量和配置文件是从 Ansible 的“主机”上下文而不是“控制器”上下文读取的。因此,可能需要将文件显式复制到“主机”。对于查找和连接插件,环境变量和配置文件是从 Ansible 的“控制器”上下文而不是“主机”上下文读取的。

  • Ansible 使用的 AWS SDK (boto3) 也可能从 Ansible“主机”上下文中的配置文件(通常为 ~/.aws/credentials)读取凭据和其他设置(例如区域)的默认值。有关更多信息,请参见 https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html

示例

# Note: These examples do not set authentication details, see the AWS Guide for details.

# Create an AWS Glue crawler
- community.aws.glue_crawler:
    name: my-glue-crawler
    database_name: my_database
    role: my-iam-role
    schema_change_policy:
      delete_behavior: DELETE_FROM_DATABASE
      update_behavior: UPDATE_IN_DATABASE
    recrawl_policy:
      recrawl_ehavior: CRAWL_EVERYTHING
    targets:
      S3Targets:
        - Path: "s3://my-bucket/prefix/folder/"
          ConnectionName: my-connection
          Exclusions:
            - "**.json"
            - "**.yml"
    state: present

# Delete an AWS Glue crawler
- community.aws.glue_crawler:
    name: my-glue-crawler
    state: absent

返回值

此处记录了常见的返回值 此处,以下是此模块特有的字段

描述

创建时间

字符串

创建此爬虫定义的时间和日期。

返回:当状态为 present 时

示例:"2021-04-01T05:19:58.326000+00:00"

database_name

字符串

写入结果的数据库名称。

返回:当状态为 present 时

示例:"my_table"

description

字符串

爬虫的描述。

返回:当状态为 present 时

示例:"My crawler"

上次更新时间

字符串

上次更新此爬虫定义的时间和日期。

返回:当状态为 present 时

示例:"2021-04-01T05:19:58.326000+00:00"

名称

字符串

AWS Glue 爬虫的名称。

返回:始终

示例:"my-glue-crawler"

recrawl_policy

复杂

指定是再次抓取整个数据集,还是仅抓取自上次爬虫运行以来添加的文件夹的策略。

返回:当状态为 present 时

RecrawlBehavior

字符串

是否重新抓取整个数据集,还是只抓取自上次爬虫运行以来添加的文件夹。

返回:当状态为 present 时

示例: "CRAWL_EVERYTHING"

角色

字符串

与此爬虫关联的 IAM 角色的名称或 ARN。

返回:当状态为 present 时

示例: "my-iam-role"

schema_change_policy

复杂

爬虫的更新和删除行为策略。

返回:当状态为 present 时

DeleteBehavior

字符串

爬虫发现已删除对象时的删除行为。

返回:当状态为 present 时

示例: "DELETE_FROM_DATABASE"

UpdateBehavior

字符串

爬虫发现架构更改时的更新行为。

返回:当状态为 present 时

示例: "UPDATE_IN_DATABASE"

表前缀

字符串

用于创建的目录表的表前缀。

返回:当状态为 present 时

示例: "my_prefix"

目标

复杂

要爬取的目标列表。

返回:当状态为 present 时

CatalogTargets

列表 / 元素=字符串

目录目标列表。

返回:当状态为 present 时

DynamoDBTargets

列表 / 元素=字符串

DynamoDB目标列表。

返回:当状态为 present 时

JdbcTargets

列表 / 元素=字符串

JDBC目标列表。

返回:当状态为 present 时

MongoDBTargets

列表 / 元素=字符串

MongoDB目标列表。

返回:当状态为 present 时

S3Targets

列表 / 元素=字符串

S3目标列表。

返回:当状态为 present 时

作者

  • Ivan Chekaldin (@ichekaldin)