2023/05/25 - AWS Glue - 12 updated api methods
Changes Added ability to create data quality rulesets for shared, cross-account Glue Data Catalog tables. Added support for dataset comparison rules through a new parameter called AdditionalDataSources. Enhanced the data quality results with a map containing profiled metric values.
{'Results': {'RuleResults': {'EvaluatedMetrics': {'string': 'double'}}}}
Retrieves a list of data quality results for the specified result IDs.
See also: AWS API Documentation
Request Syntax
client.batch_get_data_quality_result( ResultIds=[ 'string', ] )
list
[REQUIRED]
A list of unique result IDs for the data quality results.
(string) --
dict
Response Syntax
{ 'Results': [ { 'ResultId': 'string', 'Score': 123.0, 'DataSource': { 'GlueTable': { 'DatabaseName': 'string', 'TableName': 'string', 'CatalogId': 'string', 'ConnectionName': 'string', 'AdditionalOptions': { 'string': 'string' } } }, 'RulesetName': 'string', 'EvaluationContext': 'string', 'StartedOn': datetime(2015, 1, 1), 'CompletedOn': datetime(2015, 1, 1), 'JobName': 'string', 'JobRunId': 'string', 'RulesetEvaluationRunId': 'string', 'RuleResults': [ { 'Name': 'string', 'Description': 'string', 'EvaluationMessage': 'string', 'Result': 'PASS'|'FAIL'|'ERROR', 'EvaluatedMetrics': { 'string': 123.0 } }, ] }, ], 'ResultsNotFound': [ 'string', ] }
Response Structure
(dict) --
Results (list) --
A list of DataQualityResult objects representing the data quality results.
(dict) --
Describes a data quality result.
ResultId (string) --
A unique result ID for the data quality result.
Score (float) --
An aggregate data quality score. Represents the ratio of rules that passed to the total number of rules.
DataSource (dict) --
The table associated with the data quality result, if any.
GlueTable (dict) --
An Glue table.
DatabaseName (string) --
A database name in the Glue Data Catalog.
TableName (string) --
A table name in the Glue Data Catalog.
CatalogId (string) --
A unique identifier for the Glue Data Catalog.
ConnectionName (string) --
The name of the connection to the Glue Data Catalog.
AdditionalOptions (dict) --
Additional options for the table. Currently there are two keys supported:
pushDownPredicate : to filter on partitions without having to list and read all the files in your dataset.
catalogPartitionPredicate : to use server-side partition pruning using partition indexes in the Glue Data Catalog.
(string) --
(string) --
RulesetName (string) --
The name of the ruleset associated with the data quality result.
EvaluationContext (string) --
In the context of a job in Glue Studio, each node in the canvas is typically assigned some sort of name and data quality nodes will have names. In the case of multiple nodes, the evaluationContext can differentiate the nodes.
StartedOn (datetime) --
The date and time when this data quality run started.
CompletedOn (datetime) --
The date and time when this data quality run completed.
JobName (string) --
The job name associated with the data quality result, if any.
JobRunId (string) --
The job run ID associated with the data quality result, if any.
RulesetEvaluationRunId (string) --
The unique run ID for the ruleset evaluation for this data quality result.
RuleResults (list) --
A list of DataQualityRuleResult objects representing the results for each rule.
(dict) --
Describes the result of the evaluation of a data quality rule.
Name (string) --
The name of the data quality rule.
Description (string) --
A description of the data quality rule.
EvaluationMessage (string) --
An evaluation message.
Result (string) --
A pass or fail status for the rule.
EvaluatedMetrics (dict) --
A map of metrics associated with the evaluation of the rule.
(string) --
(float) --
ResultsNotFound (list) --
A list of result IDs for which results were not found.
(string) --
{'Jobs': {'CodeGenConfigurationNodes': {'EvaluateDataQualityMultiFrame': {'AdditionalDataSources': {'string': 'string'}, 'AdditionalOptions': {'performanceTuning.caching': 'string'}, 'Inputs': ['string'], 'Name': 'string', 'PublishingOptions': {'CloudWatchMetricsEnabled': 'boolean', 'EvaluationContext': 'string', 'ResultsPublishingEnabled': 'boolean', 'ResultsS3Prefix': 'string'}, 'Ruleset': 'string', 'StopJobOnFailureOptions': {'StopJobOnFailureTiming': 'Immediate ' '| ' 'AfterDataLoad'}}}}}
Returns a list of resource metadata for a given list of job names. After calling the ListJobs operation, you can call this operation to access the data to which you have been granted permissions. This operation supports all IAM permissions, including permission conditions that uses tags.
See also: AWS API Documentation
Request Syntax
client.batch_get_jobs( JobNames=[ 'string', ] )
list
[REQUIRED]
A list of job names, which might be the names returned from the ListJobs operation.
(string) --
dict
Response Syntax
{ 'Jobs': [ { 'Name': 'string', 'Description': 'string', 'LogUri': 'string', 'Role': 'string', 'CreatedOn': datetime(2015, 1, 1), 'LastModifiedOn': datetime(2015, 1, 1), 'ExecutionProperty': { 'MaxConcurrentRuns': 123 }, 'Command': { 'Name': 'string', 'ScriptLocation': 'string', 'PythonVersion': 'string' }, 'DefaultArguments': { 'string': 'string' }, 'NonOverridableArguments': { 'string': 'string' }, 'Connections': { 'Connections': [ 'string', ] }, 'MaxRetries': 123, 'AllocatedCapacity': 123, 'Timeout': 123, 'MaxCapacity': 123.0, 'WorkerType': 'Standard'|'G.1X'|'G.2X'|'G.025X'|'G.4X'|'G.8X', 'NumberOfWorkers': 123, 'SecurityConfiguration': 'string', 'NotificationProperty': { 'NotifyDelayAfter': 123 }, 'GlueVersion': 'string', 'CodeGenConfigurationNodes': { 'string': { 'AthenaConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'ConnectionTable': 'string', 'SchemaName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'JDBCConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'FilterPredicate': 'string', 'PartitionColumn': 'string', 'LowerBound': 123, 'UpperBound': 123, 'NumPartitions': 123, 'JobBookmarkKeys': [ 'string', ], 'JobBookmarkKeysSortOrder': 'string', 'DataTypeMapping': { 'string': 'DATE'|'STRING'|'TIMESTAMP'|'INT'|'FLOAT'|'LONG'|'BIGDECIMAL'|'BYTE'|'SHORT'|'DOUBLE' } }, 'ConnectionTable': 'string', 'Query': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'RedshiftSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string' }, 'S3CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'S3CsvSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'Separator': 'comma'|'ctrla'|'pipe'|'semicolon'|'tab', 'Escaper': 'string', 'QuoteChar': 'quote'|'quillemet'|'single_quote'|'disabled', 'Multiline': True|False, 'WithHeader': True|False, 'WriteHeader': True|False, 'SkipFirst': True|False, 'OptimizePerformance': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3JsonSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'JsonPath': 'string', 'Multiline': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3ParquetSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'RelationalCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'DynamoDBCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'JDBCConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectionTable': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'RedshiftTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string', 'UpsertRedshiftOptions': { 'TableLocation': 'string', 'ConnectionName': 'string', 'UpsertKeys': [ 'string', ] } }, 'S3CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3GlueParquetTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'S3DirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'string', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'ApplyMapping': { 'Name': 'string', 'Inputs': [ 'string', ], 'Mapping': [ { 'ToKey': 'string', 'FromPath': [ 'string', ], 'FromType': 'string', 'ToType': 'string', 'Dropped': True|False, 'Children': {'... recursive ...'} }, ] }, 'SelectFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'DropFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'RenameField': { 'Name': 'string', 'Inputs': [ 'string', ], 'SourcePath': [ 'string', ], 'TargetPath': [ 'string', ] }, 'Spigot': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Topk': 123, 'Prob': 123.0 }, 'Join': { 'Name': 'string', 'Inputs': [ 'string', ], 'JoinType': 'equijoin'|'left'|'right'|'outer'|'leftsemi'|'leftanti', 'Columns': [ { 'From': 'string', 'Keys': [ [ 'string', ], ] }, ] }, 'SplitFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'SelectFromCollection': { 'Name': 'string', 'Inputs': [ 'string', ], 'Index': 123 }, 'FillMissingValues': { 'Name': 'string', 'Inputs': [ 'string', ], 'ImputedPath': 'string', 'FilledPath': 'string' }, 'Filter': { 'Name': 'string', 'Inputs': [ 'string', ], 'LogicalOperator': 'AND'|'OR', 'Filters': [ { 'Operation': 'EQ'|'LT'|'GT'|'LTE'|'GTE'|'REGEX'|'ISNULL', 'Negated': True|False, 'Values': [ { 'Type': 'COLUMNEXTRACTED'|'CONSTANT', 'Value': [ 'string', ] }, ] }, ] }, 'CustomCode': { 'Name': 'string', 'Inputs': [ 'string', ], 'Code': 'string', 'ClassName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkSQL': { 'Name': 'string', 'Inputs': [ 'string', ], 'SqlQuery': 'string', 'SqlAliases': [ { 'From': 'string', 'Alias': 'string' }, ], 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'DirectKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DirectKafkaSource': { 'Name': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'WindowSize': 123, 'DetectSchema': True|False, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKafkaSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DropNullFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'NullCheckBoxList': { 'IsEmpty': True|False, 'IsNullString': True|False, 'IsNegOne': True|False }, 'NullTextList': [ { 'Value': 'string', 'Datatype': { 'Id': 'string', 'Label': 'string' } }, ] }, 'Merge': { 'Name': 'string', 'Inputs': [ 'string', ], 'Source': 'string', 'PrimaryKeys': [ [ 'string', ], ] }, 'Union': { 'Name': 'string', 'Inputs': [ 'string', ], 'UnionType': 'ALL'|'DISTINCT' }, 'PIIDetection': { 'Name': 'string', 'Inputs': [ 'string', ], 'PiiType': 'RowAudit'|'RowMasking'|'ColumnAudit'|'ColumnMasking', 'EntityTypesToDetect': [ 'string', ], 'OutputColumnName': 'string', 'SampleFraction': 123.0, 'ThresholdFraction': 123.0, 'MaskValue': 'string' }, 'Aggregate': { 'Name': 'string', 'Inputs': [ 'string', ], 'Groups': [ [ 'string', ], ], 'Aggs': [ { 'Column': [ 'string', ], 'AggFunc': 'avg'|'countDistinct'|'count'|'first'|'last'|'kurtosis'|'max'|'min'|'skewness'|'stddev_samp'|'stddev_pop'|'sum'|'sumDistinct'|'var_samp'|'var_pop' }, ] }, 'DropDuplicates': { 'Name': 'string', 'Inputs': [ 'string', ], 'Columns': [ [ 'string', ], ] }, 'GovernedCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'GovernedCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'MicrosoftSQLServerCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MicrosoftSQLServerCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'DynamicTransform': { 'Name': 'string', 'TransformName': 'string', 'Inputs': [ 'string', ], 'Parameters': [ { 'Name': 'string', 'Type': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'ValidationRule': 'string', 'ValidationMessage': 'string', 'Value': [ 'string', ], 'ListType': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'IsOptional': True|False }, ], 'FunctionName': 'string', 'Path': 'string', 'Version': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'EvaluateDataQuality': { 'Name': 'string', 'Inputs': [ 'string', ], 'Ruleset': 'string', 'Output': 'PrimaryInput'|'EvaluationResults', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } }, 'S3CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalHudiOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3HudiDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Compression': 'gzip'|'lzo'|'uncompressed'|'snappy', 'PartitionKeys': [ [ 'string', ], ], 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'DirectJDBCSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'ConnectionName': 'string', 'ConnectionType': 'sqlserver'|'mysql'|'oracle'|'postgresql'|'redshift', 'RedshiftTmpDir': 'string' }, 'S3CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalDeltaOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3DeltaDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'uncompressed'|'snappy', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'AmazonRedshiftSource': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] } }, 'AmazonRedshiftTarget': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] }, 'Inputs': [ 'string', ] }, 'EvaluateDataQualityMultiFrame': { 'Name': 'string', 'Inputs': [ 'string', ], 'AdditionalDataSources': { 'string': 'string' }, 'Ruleset': 'string', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'AdditionalOptions': { 'string': 'string' }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } } } }, 'ExecutionClass': 'FLEX'|'STANDARD', 'SourceControlDetails': { 'Provider': 'GITHUB'|'AWS_CODE_COMMIT', 'Repository': 'string', 'Owner': 'string', 'Branch': 'string', 'Folder': 'string', 'LastCommitId': 'string', 'AuthStrategy': 'PERSONAL_ACCESS_TOKEN'|'AWS_SECRETS_MANAGER', 'AuthToken': 'string' } }, ], 'JobsNotFound': [ 'string', ] } **Response Structure** :: # This section is too large to render. # Please see the AWS API Documentation linked below. `AWS API Documentation <https://docs.aws.amazon.com/goto/WebAPI/glue-2017-03-31/BatchGetJobs>`_
{'TargetTable': {'CatalogId': 'string'}}
Creates a data quality ruleset with DQDL rules applied to a specified Glue table.
You create the ruleset using the Data Quality Definition Language (DQDL). For more information, see the Glue developer guide.
See also: AWS API Documentation
Request Syntax
client.create_data_quality_ruleset( Name='string', Description='string', Ruleset='string', Tags={ 'string': 'string' }, TargetTable={ 'TableName': 'string', 'DatabaseName': 'string', 'CatalogId': 'string' }, ClientToken='string' )
string
[REQUIRED]
A unique name for the data quality ruleset.
string
A description of the data quality ruleset.
string
[REQUIRED]
A Data Quality Definition Language (DQDL) ruleset. For more information, see the Glue developer guide.
dict
A list of tags applied to the data quality ruleset.
(string) --
(string) --
dict
A target table associated with the data quality ruleset.
TableName (string) -- [REQUIRED]
The name of the Glue table.
DatabaseName (string) -- [REQUIRED]
The name of the database where the Glue table exists.
CatalogId (string) --
The catalog id where the Glue table exists.
string
Used for idempotency and is recommended to be set to a random ID (such as a UUID) to avoid creating or starting multiple instances of the same resource.
dict
Response Syntax
{ 'Name': 'string' }
Response Structure
(dict) --
Name (string) --
A unique name for the data quality ruleset.
{'CodeGenConfigurationNodes': {'EvaluateDataQualityMultiFrame': {'AdditionalDataSources': {'string': 'string'}, 'AdditionalOptions': {'performanceTuning.caching': 'string'}, 'Inputs': ['string'], 'Name': 'string', 'PublishingOptions': {'CloudWatchMetricsEnabled': 'boolean', 'EvaluationContext': 'string', 'ResultsPublishingEnabled': 'boolean', 'ResultsS3Prefix': 'string'}, 'Ruleset': 'string', 'StopJobOnFailureOptions': {'StopJobOnFailureTiming': 'Immediate ' '| ' 'AfterDataLoad'}}}}
Creates a new job definition.
See also: AWS API Documentation
Request Syntax
client.create_job( Name='string', Description='string', LogUri='string', Role='string', ExecutionProperty={ 'MaxConcurrentRuns': 123 }, Command={ 'Name': 'string', 'ScriptLocation': 'string', 'PythonVersion': 'string' }, DefaultArguments={ 'string': 'string' }, NonOverridableArguments={ 'string': 'string' }, Connections={ 'Connections': [ 'string', ] }, MaxRetries=123, AllocatedCapacity=123, Timeout=123, MaxCapacity=123.0, SecurityConfiguration='string', Tags={ 'string': 'string' }, NotificationProperty={ 'NotifyDelayAfter': 123 }, GlueVersion='string', NumberOfWorkers=123, WorkerType='Standard'|'G.1X'|'G.2X'|'G.025X'|'G.4X'|'G.8X', CodeGenConfigurationNodes={ 'string': { 'AthenaConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'ConnectionTable': 'string', 'SchemaName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'JDBCConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'FilterPredicate': 'string', 'PartitionColumn': 'string', 'LowerBound': 123, 'UpperBound': 123, 'NumPartitions': 123, 'JobBookmarkKeys': [ 'string', ], 'JobBookmarkKeysSortOrder': 'string', 'DataTypeMapping': { 'string': 'DATE'|'STRING'|'TIMESTAMP'|'INT'|'FLOAT'|'LONG'|'BIGDECIMAL'|'BYTE'|'SHORT'|'DOUBLE' } }, 'ConnectionTable': 'string', 'Query': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'RedshiftSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string' }, 'S3CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'S3CsvSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'Separator': 'comma'|'ctrla'|'pipe'|'semicolon'|'tab', 'Escaper': 'string', 'QuoteChar': 'quote'|'quillemet'|'single_quote'|'disabled', 'Multiline': True|False, 'WithHeader': True|False, 'WriteHeader': True|False, 'SkipFirst': True|False, 'OptimizePerformance': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3JsonSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'JsonPath': 'string', 'Multiline': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3ParquetSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'RelationalCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'DynamoDBCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'JDBCConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectionTable': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'RedshiftTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string', 'UpsertRedshiftOptions': { 'TableLocation': 'string', 'ConnectionName': 'string', 'UpsertKeys': [ 'string', ] } }, 'S3CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3GlueParquetTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'S3DirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'string', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'ApplyMapping': { 'Name': 'string', 'Inputs': [ 'string', ], 'Mapping': [ { 'ToKey': 'string', 'FromPath': [ 'string', ], 'FromType': 'string', 'ToType': 'string', 'Dropped': True|False, 'Children': {'... recursive ...'} }, ] }, 'SelectFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'DropFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'RenameField': { 'Name': 'string', 'Inputs': [ 'string', ], 'SourcePath': [ 'string', ], 'TargetPath': [ 'string', ] }, 'Spigot': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Topk': 123, 'Prob': 123.0 }, 'Join': { 'Name': 'string', 'Inputs': [ 'string', ], 'JoinType': 'equijoin'|'left'|'right'|'outer'|'leftsemi'|'leftanti', 'Columns': [ { 'From': 'string', 'Keys': [ [ 'string', ], ] }, ] }, 'SplitFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'SelectFromCollection': { 'Name': 'string', 'Inputs': [ 'string', ], 'Index': 123 }, 'FillMissingValues': { 'Name': 'string', 'Inputs': [ 'string', ], 'ImputedPath': 'string', 'FilledPath': 'string' }, 'Filter': { 'Name': 'string', 'Inputs': [ 'string', ], 'LogicalOperator': 'AND'|'OR', 'Filters': [ { 'Operation': 'EQ'|'LT'|'GT'|'LTE'|'GTE'|'REGEX'|'ISNULL', 'Negated': True|False, 'Values': [ { 'Type': 'COLUMNEXTRACTED'|'CONSTANT', 'Value': [ 'string', ] }, ] }, ] }, 'CustomCode': { 'Name': 'string', 'Inputs': [ 'string', ], 'Code': 'string', 'ClassName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkSQL': { 'Name': 'string', 'Inputs': [ 'string', ], 'SqlQuery': 'string', 'SqlAliases': [ { 'From': 'string', 'Alias': 'string' }, ], 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'DirectKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DirectKafkaSource': { 'Name': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'WindowSize': 123, 'DetectSchema': True|False, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKafkaSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DropNullFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'NullCheckBoxList': { 'IsEmpty': True|False, 'IsNullString': True|False, 'IsNegOne': True|False }, 'NullTextList': [ { 'Value': 'string', 'Datatype': { 'Id': 'string', 'Label': 'string' } }, ] }, 'Merge': { 'Name': 'string', 'Inputs': [ 'string', ], 'Source': 'string', 'PrimaryKeys': [ [ 'string', ], ] }, 'Union': { 'Name': 'string', 'Inputs': [ 'string', ], 'UnionType': 'ALL'|'DISTINCT' }, 'PIIDetection': { 'Name': 'string', 'Inputs': [ 'string', ], 'PiiType': 'RowAudit'|'RowMasking'|'ColumnAudit'|'ColumnMasking', 'EntityTypesToDetect': [ 'string', ], 'OutputColumnName': 'string', 'SampleFraction': 123.0, 'ThresholdFraction': 123.0, 'MaskValue': 'string' }, 'Aggregate': { 'Name': 'string', 'Inputs': [ 'string', ], 'Groups': [ [ 'string', ], ], 'Aggs': [ { 'Column': [ 'string', ], 'AggFunc': 'avg'|'countDistinct'|'count'|'first'|'last'|'kurtosis'|'max'|'min'|'skewness'|'stddev_samp'|'stddev_pop'|'sum'|'sumDistinct'|'var_samp'|'var_pop' }, ] }, 'DropDuplicates': { 'Name': 'string', 'Inputs': [ 'string', ], 'Columns': [ [ 'string', ], ] }, 'GovernedCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'GovernedCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'MicrosoftSQLServerCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MicrosoftSQLServerCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'DynamicTransform': { 'Name': 'string', 'TransformName': 'string', 'Inputs': [ 'string', ], 'Parameters': [ { 'Name': 'string', 'Type': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'ValidationRule': 'string', 'ValidationMessage': 'string', 'Value': [ 'string', ], 'ListType': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'IsOptional': True|False }, ], 'FunctionName': 'string', 'Path': 'string', 'Version': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'EvaluateDataQuality': { 'Name': 'string', 'Inputs': [ 'string', ], 'Ruleset': 'string', 'Output': 'PrimaryInput'|'EvaluationResults', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } }, 'S3CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalHudiOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3HudiDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Compression': 'gzip'|'lzo'|'uncompressed'|'snappy', 'PartitionKeys': [ [ 'string', ], ], 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'DirectJDBCSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'ConnectionName': 'string', 'ConnectionType': 'sqlserver'|'mysql'|'oracle'|'postgresql'|'redshift', 'RedshiftTmpDir': 'string' }, 'S3CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalDeltaOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3DeltaDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'uncompressed'|'snappy', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'AmazonRedshiftSource': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] } }, 'AmazonRedshiftTarget': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] }, 'Inputs': [ 'string', ] }, 'EvaluateDataQualityMultiFrame': { 'Name': 'string', 'Inputs': [ 'string', ], 'AdditionalDataSources': { 'string': 'string' }, 'Ruleset': 'string', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'AdditionalOptions': { 'string': 'string' }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } } } }, ExecutionClass='FLEX'|'STANDARD', SourceControlDetails={ 'Provider': 'GITHUB'|'AWS_CODE_COMMIT', 'Repository': 'string', 'Owner': 'string', 'Branch': 'string', 'Folder': 'string', 'LastCommitId': 'string', 'AuthStrategy': 'PERSONAL_ACCESS_TOKEN'|'AWS_SECRETS_MANAGER', 'AuthToken': 'string' } ) **Parameters** :: # This section is too large to render. # Please see the AWS API Documentation linked below. `AWS API Documentation <https://docs.aws.amazon.com/goto/WebAPI/glue-2017-03-31/CreateJob>`_
dict
Response Syntax
{ 'Name': 'string' }
Response Structure
(dict) --
Name (string) --
The unique name that was provided for this job definition.
{'RuleResults': {'EvaluatedMetrics': {'string': 'double'}}}
Retrieves the result of a data quality rule evaluation.
See also: AWS API Documentation
Request Syntax
client.get_data_quality_result( ResultId='string' )
string
[REQUIRED]
A unique result ID for the data quality result.
dict
Response Syntax
{ 'ResultId': 'string', 'Score': 123.0, 'DataSource': { 'GlueTable': { 'DatabaseName': 'string', 'TableName': 'string', 'CatalogId': 'string', 'ConnectionName': 'string', 'AdditionalOptions': { 'string': 'string' } } }, 'RulesetName': 'string', 'EvaluationContext': 'string', 'StartedOn': datetime(2015, 1, 1), 'CompletedOn': datetime(2015, 1, 1), 'JobName': 'string', 'JobRunId': 'string', 'RulesetEvaluationRunId': 'string', 'RuleResults': [ { 'Name': 'string', 'Description': 'string', 'EvaluationMessage': 'string', 'Result': 'PASS'|'FAIL'|'ERROR', 'EvaluatedMetrics': { 'string': 123.0 } }, ] }
Response Structure
(dict) --
ResultId (string) --
A unique result ID for the data quality result.
Score (float) --
An aggregate data quality score. Represents the ratio of rules that passed to the total number of rules.
DataSource (dict) --
The table associated with the data quality result, if any.
GlueTable (dict) --
An Glue table.
DatabaseName (string) --
A database name in the Glue Data Catalog.
TableName (string) --
A table name in the Glue Data Catalog.
CatalogId (string) --
A unique identifier for the Glue Data Catalog.
ConnectionName (string) --
The name of the connection to the Glue Data Catalog.
AdditionalOptions (dict) --
Additional options for the table. Currently there are two keys supported:
pushDownPredicate : to filter on partitions without having to list and read all the files in your dataset.
catalogPartitionPredicate : to use server-side partition pruning using partition indexes in the Glue Data Catalog.
(string) --
(string) --
RulesetName (string) --
The name of the ruleset associated with the data quality result.
EvaluationContext (string) --
In the context of a job in Glue Studio, each node in the canvas is typically assigned some sort of name and data quality nodes will have names. In the case of multiple nodes, the evaluationContext can differentiate the nodes.
StartedOn (datetime) --
The date and time when the run for this data quality result started.
CompletedOn (datetime) --
The date and time when the run for this data quality result was completed.
JobName (string) --
The job name associated with the data quality result, if any.
JobRunId (string) --
The job run ID associated with the data quality result, if any.
RulesetEvaluationRunId (string) --
The unique run ID associated with the ruleset evaluation.
RuleResults (list) --
A list of DataQualityRuleResult objects representing the results for each rule.
(dict) --
Describes the result of the evaluation of a data quality rule.
Name (string) --
The name of the data quality rule.
Description (string) --
A description of the data quality rule.
EvaluationMessage (string) --
An evaluation message.
Result (string) --
A pass or fail status for the rule.
EvaluatedMetrics (dict) --
A map of metrics associated with the evaluation of the rule.
(string) --
(float) --
{'TargetTable': {'CatalogId': 'string'}}
Returns an existing ruleset by identifier or name.
See also: AWS API Documentation
Request Syntax
client.get_data_quality_ruleset( Name='string' )
string
[REQUIRED]
The name of the ruleset.
dict
Response Syntax
{ 'Name': 'string', 'Description': 'string', 'Ruleset': 'string', 'TargetTable': { 'TableName': 'string', 'DatabaseName': 'string', 'CatalogId': 'string' }, 'CreatedOn': datetime(2015, 1, 1), 'LastModifiedOn': datetime(2015, 1, 1), 'RecommendationRunId': 'string' }
Response Structure
(dict) --
Name (string) --
The name of the ruleset.
Description (string) --
A description of the ruleset.
Ruleset (string) --
A Data Quality Definition Language (DQDL) ruleset. For more information, see the Glue developer guide.
TargetTable (dict) --
The name and database name of the target table.
TableName (string) --
The name of the Glue table.
DatabaseName (string) --
The name of the database where the Glue table exists.
CatalogId (string) --
The catalog id where the Glue table exists.
CreatedOn (datetime) --
A timestamp. The time and date that this data quality ruleset was created.
LastModifiedOn (datetime) --
A timestamp. The last point in time when this data quality ruleset was modified.
RecommendationRunId (string) --
When a ruleset was created from a recommendation run, this run ID is generated to link the two together.
{'AdditionalDataSources': {'string': {'GlueTable': {'AdditionalOptions': {'string': 'string'}, 'CatalogId': 'string', 'ConnectionName': 'string', 'DatabaseName': 'string', 'TableName': 'string'}}}}
Retrieves a specific run where a ruleset is evaluated against a data source.
See also: AWS API Documentation
Request Syntax
client.get_data_quality_ruleset_evaluation_run( RunId='string' )
string
[REQUIRED]
The unique run identifier associated with this run.
dict
Response Syntax
{ 'RunId': 'string', 'DataSource': { 'GlueTable': { 'DatabaseName': 'string', 'TableName': 'string', 'CatalogId': 'string', 'ConnectionName': 'string', 'AdditionalOptions': { 'string': 'string' } } }, 'Role': 'string', 'NumberOfWorkers': 123, 'Timeout': 123, 'AdditionalRunOptions': { 'CloudWatchMetricsEnabled': True|False, 'ResultsS3Prefix': 'string' }, 'Status': 'STARTING'|'RUNNING'|'STOPPING'|'STOPPED'|'SUCCEEDED'|'FAILED'|'TIMEOUT', 'ErrorString': 'string', 'StartedOn': datetime(2015, 1, 1), 'LastModifiedOn': datetime(2015, 1, 1), 'CompletedOn': datetime(2015, 1, 1), 'ExecutionTime': 123, 'RulesetNames': [ 'string', ], 'ResultIds': [ 'string', ], 'AdditionalDataSources': { 'string': { 'GlueTable': { 'DatabaseName': 'string', 'TableName': 'string', 'CatalogId': 'string', 'ConnectionName': 'string', 'AdditionalOptions': { 'string': 'string' } } } } }
Response Structure
(dict) --
RunId (string) --
The unique run identifier associated with this run.
DataSource (dict) --
The data source (an Glue table) associated with this evaluation run.
GlueTable (dict) --
An Glue table.
DatabaseName (string) --
A database name in the Glue Data Catalog.
TableName (string) --
A table name in the Glue Data Catalog.
CatalogId (string) --
A unique identifier for the Glue Data Catalog.
ConnectionName (string) --
The name of the connection to the Glue Data Catalog.
AdditionalOptions (dict) --
Additional options for the table. Currently there are two keys supported:
pushDownPredicate : to filter on partitions without having to list and read all the files in your dataset.
catalogPartitionPredicate : to use server-side partition pruning using partition indexes in the Glue Data Catalog.
(string) --
(string) --
Role (string) --
An IAM role supplied to encrypt the results of the run.
NumberOfWorkers (integer) --
The number of G.1X workers to be used in the run. The default is 5.
Timeout (integer) --
The timeout for a run in minutes. This is the maximum time that a run can consume resources before it is terminated and enters TIMEOUT status. The default is 2,880 minutes (48 hours).
AdditionalRunOptions (dict) --
Additional run options you can specify for an evaluation run.
CloudWatchMetricsEnabled (boolean) --
Whether or not to enable CloudWatch metrics.
ResultsS3Prefix (string) --
Prefix for Amazon S3 to store results.
Status (string) --
The status for this run.
ErrorString (string) --
The error strings that are associated with the run.
StartedOn (datetime) --
The date and time when this run started.
LastModifiedOn (datetime) --
A timestamp. The last point in time when this data quality rule recommendation run was modified.
CompletedOn (datetime) --
The date and time when this run was completed.
ExecutionTime (integer) --
The amount of time (in seconds) that the run consumed resources.
RulesetNames (list) --
A list of ruleset names for the run.
(string) --
ResultIds (list) --
A list of result IDs for the data quality results for the run.
(string) --
AdditionalDataSources (dict) --
A map of reference strings to additional data sources you can specify for an evaluation run.
(string) --
(dict) --
A data source (an Glue table) for which you want data quality results.
GlueTable (dict) --
An Glue table.
DatabaseName (string) --
A database name in the Glue Data Catalog.
TableName (string) --
A table name in the Glue Data Catalog.
CatalogId (string) --
A unique identifier for the Glue Data Catalog.
ConnectionName (string) --
The name of the connection to the Glue Data Catalog.
AdditionalOptions (dict) --
Additional options for the table. Currently there are two keys supported:
pushDownPredicate : to filter on partitions without having to list and read all the files in your dataset.
catalogPartitionPredicate : to use server-side partition pruning using partition indexes in the Glue Data Catalog.
(string) --
(string) --
{'Job': {'CodeGenConfigurationNodes': {'EvaluateDataQualityMultiFrame': {'AdditionalDataSources': {'string': 'string'}, 'AdditionalOptions': {'performanceTuning.caching': 'string'}, 'Inputs': ['string'], 'Name': 'string', 'PublishingOptions': {'CloudWatchMetricsEnabled': 'boolean', 'EvaluationContext': 'string', 'ResultsPublishingEnabled': 'boolean', 'ResultsS3Prefix': 'string'}, 'Ruleset': 'string', 'StopJobOnFailureOptions': {'StopJobOnFailureTiming': 'Immediate ' '| ' 'AfterDataLoad'}}}}}
Retrieves an existing job definition.
See also: AWS API Documentation
Request Syntax
client.get_job( JobName='string' )
string
[REQUIRED]
The name of the job definition to retrieve.
dict
Response Syntax
{ 'Job': { 'Name': 'string', 'Description': 'string', 'LogUri': 'string', 'Role': 'string', 'CreatedOn': datetime(2015, 1, 1), 'LastModifiedOn': datetime(2015, 1, 1), 'ExecutionProperty': { 'MaxConcurrentRuns': 123 }, 'Command': { 'Name': 'string', 'ScriptLocation': 'string', 'PythonVersion': 'string' }, 'DefaultArguments': { 'string': 'string' }, 'NonOverridableArguments': { 'string': 'string' }, 'Connections': { 'Connections': [ 'string', ] }, 'MaxRetries': 123, 'AllocatedCapacity': 123, 'Timeout': 123, 'MaxCapacity': 123.0, 'WorkerType': 'Standard'|'G.1X'|'G.2X'|'G.025X'|'G.4X'|'G.8X', 'NumberOfWorkers': 123, 'SecurityConfiguration': 'string', 'NotificationProperty': { 'NotifyDelayAfter': 123 }, 'GlueVersion': 'string', 'CodeGenConfigurationNodes': { 'string': { 'AthenaConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'ConnectionTable': 'string', 'SchemaName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'JDBCConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'FilterPredicate': 'string', 'PartitionColumn': 'string', 'LowerBound': 123, 'UpperBound': 123, 'NumPartitions': 123, 'JobBookmarkKeys': [ 'string', ], 'JobBookmarkKeysSortOrder': 'string', 'DataTypeMapping': { 'string': 'DATE'|'STRING'|'TIMESTAMP'|'INT'|'FLOAT'|'LONG'|'BIGDECIMAL'|'BYTE'|'SHORT'|'DOUBLE' } }, 'ConnectionTable': 'string', 'Query': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'RedshiftSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string' }, 'S3CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'S3CsvSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'Separator': 'comma'|'ctrla'|'pipe'|'semicolon'|'tab', 'Escaper': 'string', 'QuoteChar': 'quote'|'quillemet'|'single_quote'|'disabled', 'Multiline': True|False, 'WithHeader': True|False, 'WriteHeader': True|False, 'SkipFirst': True|False, 'OptimizePerformance': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3JsonSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'JsonPath': 'string', 'Multiline': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3ParquetSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'RelationalCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'DynamoDBCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'JDBCConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectionTable': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'RedshiftTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string', 'UpsertRedshiftOptions': { 'TableLocation': 'string', 'ConnectionName': 'string', 'UpsertKeys': [ 'string', ] } }, 'S3CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3GlueParquetTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'S3DirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'string', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'ApplyMapping': { 'Name': 'string', 'Inputs': [ 'string', ], 'Mapping': [ { 'ToKey': 'string', 'FromPath': [ 'string', ], 'FromType': 'string', 'ToType': 'string', 'Dropped': True|False, 'Children': {'... recursive ...'} }, ] }, 'SelectFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'DropFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'RenameField': { 'Name': 'string', 'Inputs': [ 'string', ], 'SourcePath': [ 'string', ], 'TargetPath': [ 'string', ] }, 'Spigot': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Topk': 123, 'Prob': 123.0 }, 'Join': { 'Name': 'string', 'Inputs': [ 'string', ], 'JoinType': 'equijoin'|'left'|'right'|'outer'|'leftsemi'|'leftanti', 'Columns': [ { 'From': 'string', 'Keys': [ [ 'string', ], ] }, ] }, 'SplitFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'SelectFromCollection': { 'Name': 'string', 'Inputs': [ 'string', ], 'Index': 123 }, 'FillMissingValues': { 'Name': 'string', 'Inputs': [ 'string', ], 'ImputedPath': 'string', 'FilledPath': 'string' }, 'Filter': { 'Name': 'string', 'Inputs': [ 'string', ], 'LogicalOperator': 'AND'|'OR', 'Filters': [ { 'Operation': 'EQ'|'LT'|'GT'|'LTE'|'GTE'|'REGEX'|'ISNULL', 'Negated': True|False, 'Values': [ { 'Type': 'COLUMNEXTRACTED'|'CONSTANT', 'Value': [ 'string', ] }, ] }, ] }, 'CustomCode': { 'Name': 'string', 'Inputs': [ 'string', ], 'Code': 'string', 'ClassName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkSQL': { 'Name': 'string', 'Inputs': [ 'string', ], 'SqlQuery': 'string', 'SqlAliases': [ { 'From': 'string', 'Alias': 'string' }, ], 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'DirectKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DirectKafkaSource': { 'Name': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'WindowSize': 123, 'DetectSchema': True|False, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKafkaSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DropNullFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'NullCheckBoxList': { 'IsEmpty': True|False, 'IsNullString': True|False, 'IsNegOne': True|False }, 'NullTextList': [ { 'Value': 'string', 'Datatype': { 'Id': 'string', 'Label': 'string' } }, ] }, 'Merge': { 'Name': 'string', 'Inputs': [ 'string', ], 'Source': 'string', 'PrimaryKeys': [ [ 'string', ], ] }, 'Union': { 'Name': 'string', 'Inputs': [ 'string', ], 'UnionType': 'ALL'|'DISTINCT' }, 'PIIDetection': { 'Name': 'string', 'Inputs': [ 'string', ], 'PiiType': 'RowAudit'|'RowMasking'|'ColumnAudit'|'ColumnMasking', 'EntityTypesToDetect': [ 'string', ], 'OutputColumnName': 'string', 'SampleFraction': 123.0, 'ThresholdFraction': 123.0, 'MaskValue': 'string' }, 'Aggregate': { 'Name': 'string', 'Inputs': [ 'string', ], 'Groups': [ [ 'string', ], ], 'Aggs': [ { 'Column': [ 'string', ], 'AggFunc': 'avg'|'countDistinct'|'count'|'first'|'last'|'kurtosis'|'max'|'min'|'skewness'|'stddev_samp'|'stddev_pop'|'sum'|'sumDistinct'|'var_samp'|'var_pop' }, ] }, 'DropDuplicates': { 'Name': 'string', 'Inputs': [ 'string', ], 'Columns': [ [ 'string', ], ] }, 'GovernedCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'GovernedCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'MicrosoftSQLServerCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MicrosoftSQLServerCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'DynamicTransform': { 'Name': 'string', 'TransformName': 'string', 'Inputs': [ 'string', ], 'Parameters': [ { 'Name': 'string', 'Type': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'ValidationRule': 'string', 'ValidationMessage': 'string', 'Value': [ 'string', ], 'ListType': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'IsOptional': True|False }, ], 'FunctionName': 'string', 'Path': 'string', 'Version': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'EvaluateDataQuality': { 'Name': 'string', 'Inputs': [ 'string', ], 'Ruleset': 'string', 'Output': 'PrimaryInput'|'EvaluationResults', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } }, 'S3CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalHudiOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3HudiDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Compression': 'gzip'|'lzo'|'uncompressed'|'snappy', 'PartitionKeys': [ [ 'string', ], ], 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'DirectJDBCSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'ConnectionName': 'string', 'ConnectionType': 'sqlserver'|'mysql'|'oracle'|'postgresql'|'redshift', 'RedshiftTmpDir': 'string' }, 'S3CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalDeltaOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3DeltaDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'uncompressed'|'snappy', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'AmazonRedshiftSource': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] } }, 'AmazonRedshiftTarget': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] }, 'Inputs': [ 'string', ] }, 'EvaluateDataQualityMultiFrame': { 'Name': 'string', 'Inputs': [ 'string', ], 'AdditionalDataSources': { 'string': 'string' }, 'Ruleset': 'string', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'AdditionalOptions': { 'string': 'string' }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } } } }, 'ExecutionClass': 'FLEX'|'STANDARD', 'SourceControlDetails': { 'Provider': 'GITHUB'|'AWS_CODE_COMMIT', 'Repository': 'string', 'Owner': 'string', 'Branch': 'string', 'Folder': 'string', 'LastCommitId': 'string', 'AuthStrategy': 'PERSONAL_ACCESS_TOKEN'|'AWS_SECRETS_MANAGER', 'AuthToken': 'string' } } } **Response Structure** :: # This section is too large to render. # Please see the AWS API Documentation linked below. `AWS API Documentation <https://docs.aws.amazon.com/goto/WebAPI/glue-2017-03-31/GetJob>`_
{'Jobs': {'CodeGenConfigurationNodes': {'EvaluateDataQualityMultiFrame': {'AdditionalDataSources': {'string': 'string'}, 'AdditionalOptions': {'performanceTuning.caching': 'string'}, 'Inputs': ['string'], 'Name': 'string', 'PublishingOptions': {'CloudWatchMetricsEnabled': 'boolean', 'EvaluationContext': 'string', 'ResultsPublishingEnabled': 'boolean', 'ResultsS3Prefix': 'string'}, 'Ruleset': 'string', 'StopJobOnFailureOptions': {'StopJobOnFailureTiming': 'Immediate ' '| ' 'AfterDataLoad'}}}}}
Retrieves all current job definitions.
See also: AWS API Documentation
Request Syntax
client.get_jobs( NextToken='string', MaxResults=123 )
string
A continuation token, if this is a continuation call.
integer
The maximum size of the response.
dict
Response Syntax
{ 'Jobs': [ { 'Name': 'string', 'Description': 'string', 'LogUri': 'string', 'Role': 'string', 'CreatedOn': datetime(2015, 1, 1), 'LastModifiedOn': datetime(2015, 1, 1), 'ExecutionProperty': { 'MaxConcurrentRuns': 123 }, 'Command': { 'Name': 'string', 'ScriptLocation': 'string', 'PythonVersion': 'string' }, 'DefaultArguments': { 'string': 'string' }, 'NonOverridableArguments': { 'string': 'string' }, 'Connections': { 'Connections': [ 'string', ] }, 'MaxRetries': 123, 'AllocatedCapacity': 123, 'Timeout': 123, 'MaxCapacity': 123.0, 'WorkerType': 'Standard'|'G.1X'|'G.2X'|'G.025X'|'G.4X'|'G.8X', 'NumberOfWorkers': 123, 'SecurityConfiguration': 'string', 'NotificationProperty': { 'NotifyDelayAfter': 123 }, 'GlueVersion': 'string', 'CodeGenConfigurationNodes': { 'string': { 'AthenaConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'ConnectionTable': 'string', 'SchemaName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'JDBCConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'FilterPredicate': 'string', 'PartitionColumn': 'string', 'LowerBound': 123, 'UpperBound': 123, 'NumPartitions': 123, 'JobBookmarkKeys': [ 'string', ], 'JobBookmarkKeysSortOrder': 'string', 'DataTypeMapping': { 'string': 'DATE'|'STRING'|'TIMESTAMP'|'INT'|'FLOAT'|'LONG'|'BIGDECIMAL'|'BYTE'|'SHORT'|'DOUBLE' } }, 'ConnectionTable': 'string', 'Query': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'RedshiftSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string' }, 'S3CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'S3CsvSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'Separator': 'comma'|'ctrla'|'pipe'|'semicolon'|'tab', 'Escaper': 'string', 'QuoteChar': 'quote'|'quillemet'|'single_quote'|'disabled', 'Multiline': True|False, 'WithHeader': True|False, 'WriteHeader': True|False, 'SkipFirst': True|False, 'OptimizePerformance': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3JsonSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'JsonPath': 'string', 'Multiline': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3ParquetSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'RelationalCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'DynamoDBCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'JDBCConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectionTable': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'RedshiftTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string', 'UpsertRedshiftOptions': { 'TableLocation': 'string', 'ConnectionName': 'string', 'UpsertKeys': [ 'string', ] } }, 'S3CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3GlueParquetTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'S3DirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'string', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'ApplyMapping': { 'Name': 'string', 'Inputs': [ 'string', ], 'Mapping': [ { 'ToKey': 'string', 'FromPath': [ 'string', ], 'FromType': 'string', 'ToType': 'string', 'Dropped': True|False, 'Children': {'... recursive ...'} }, ] }, 'SelectFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'DropFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'RenameField': { 'Name': 'string', 'Inputs': [ 'string', ], 'SourcePath': [ 'string', ], 'TargetPath': [ 'string', ] }, 'Spigot': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Topk': 123, 'Prob': 123.0 }, 'Join': { 'Name': 'string', 'Inputs': [ 'string', ], 'JoinType': 'equijoin'|'left'|'right'|'outer'|'leftsemi'|'leftanti', 'Columns': [ { 'From': 'string', 'Keys': [ [ 'string', ], ] }, ] }, 'SplitFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'SelectFromCollection': { 'Name': 'string', 'Inputs': [ 'string', ], 'Index': 123 }, 'FillMissingValues': { 'Name': 'string', 'Inputs': [ 'string', ], 'ImputedPath': 'string', 'FilledPath': 'string' }, 'Filter': { 'Name': 'string', 'Inputs': [ 'string', ], 'LogicalOperator': 'AND'|'OR', 'Filters': [ { 'Operation': 'EQ'|'LT'|'GT'|'LTE'|'GTE'|'REGEX'|'ISNULL', 'Negated': True|False, 'Values': [ { 'Type': 'COLUMNEXTRACTED'|'CONSTANT', 'Value': [ 'string', ] }, ] }, ] }, 'CustomCode': { 'Name': 'string', 'Inputs': [ 'string', ], 'Code': 'string', 'ClassName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkSQL': { 'Name': 'string', 'Inputs': [ 'string', ], 'SqlQuery': 'string', 'SqlAliases': [ { 'From': 'string', 'Alias': 'string' }, ], 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'DirectKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DirectKafkaSource': { 'Name': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'WindowSize': 123, 'DetectSchema': True|False, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKafkaSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DropNullFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'NullCheckBoxList': { 'IsEmpty': True|False, 'IsNullString': True|False, 'IsNegOne': True|False }, 'NullTextList': [ { 'Value': 'string', 'Datatype': { 'Id': 'string', 'Label': 'string' } }, ] }, 'Merge': { 'Name': 'string', 'Inputs': [ 'string', ], 'Source': 'string', 'PrimaryKeys': [ [ 'string', ], ] }, 'Union': { 'Name': 'string', 'Inputs': [ 'string', ], 'UnionType': 'ALL'|'DISTINCT' }, 'PIIDetection': { 'Name': 'string', 'Inputs': [ 'string', ], 'PiiType': 'RowAudit'|'RowMasking'|'ColumnAudit'|'ColumnMasking', 'EntityTypesToDetect': [ 'string', ], 'OutputColumnName': 'string', 'SampleFraction': 123.0, 'ThresholdFraction': 123.0, 'MaskValue': 'string' }, 'Aggregate': { 'Name': 'string', 'Inputs': [ 'string', ], 'Groups': [ [ 'string', ], ], 'Aggs': [ { 'Column': [ 'string', ], 'AggFunc': 'avg'|'countDistinct'|'count'|'first'|'last'|'kurtosis'|'max'|'min'|'skewness'|'stddev_samp'|'stddev_pop'|'sum'|'sumDistinct'|'var_samp'|'var_pop' }, ] }, 'DropDuplicates': { 'Name': 'string', 'Inputs': [ 'string', ], 'Columns': [ [ 'string', ], ] }, 'GovernedCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'GovernedCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'MicrosoftSQLServerCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MicrosoftSQLServerCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'DynamicTransform': { 'Name': 'string', 'TransformName': 'string', 'Inputs': [ 'string', ], 'Parameters': [ { 'Name': 'string', 'Type': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'ValidationRule': 'string', 'ValidationMessage': 'string', 'Value': [ 'string', ], 'ListType': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'IsOptional': True|False }, ], 'FunctionName': 'string', 'Path': 'string', 'Version': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'EvaluateDataQuality': { 'Name': 'string', 'Inputs': [ 'string', ], 'Ruleset': 'string', 'Output': 'PrimaryInput'|'EvaluationResults', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } }, 'S3CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalHudiOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3HudiDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Compression': 'gzip'|'lzo'|'uncompressed'|'snappy', 'PartitionKeys': [ [ 'string', ], ], 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'DirectJDBCSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'ConnectionName': 'string', 'ConnectionType': 'sqlserver'|'mysql'|'oracle'|'postgresql'|'redshift', 'RedshiftTmpDir': 'string' }, 'S3CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalDeltaOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3DeltaDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'uncompressed'|'snappy', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'AmazonRedshiftSource': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] } }, 'AmazonRedshiftTarget': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] }, 'Inputs': [ 'string', ] }, 'EvaluateDataQualityMultiFrame': { 'Name': 'string', 'Inputs': [ 'string', ], 'AdditionalDataSources': { 'string': 'string' }, 'Ruleset': 'string', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'AdditionalOptions': { 'string': 'string' }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } } } }, 'ExecutionClass': 'FLEX'|'STANDARD', 'SourceControlDetails': { 'Provider': 'GITHUB'|'AWS_CODE_COMMIT', 'Repository': 'string', 'Owner': 'string', 'Branch': 'string', 'Folder': 'string', 'LastCommitId': 'string', 'AuthStrategy': 'PERSONAL_ACCESS_TOKEN'|'AWS_SECRETS_MANAGER', 'AuthToken': 'string' } }, ], 'NextToken': 'string' } **Response Structure** :: # This section is too large to render. # Please see the AWS API Documentation linked below. `AWS API Documentation <https://docs.aws.amazon.com/goto/WebAPI/glue-2017-03-31/GetJobs>`_
{'Filter': {'TargetTable': {'CatalogId': 'string'}}}Response
{'Rulesets': {'TargetTable': {'CatalogId': 'string'}}}
Returns a paginated list of rulesets for the specified list of Glue tables.
See also: AWS API Documentation
Request Syntax
client.list_data_quality_rulesets( NextToken='string', MaxResults=123, Filter={ 'Name': 'string', 'Description': 'string', 'CreatedBefore': datetime(2015, 1, 1), 'CreatedAfter': datetime(2015, 1, 1), 'LastModifiedBefore': datetime(2015, 1, 1), 'LastModifiedAfter': datetime(2015, 1, 1), 'TargetTable': { 'TableName': 'string', 'DatabaseName': 'string', 'CatalogId': 'string' } }, Tags={ 'string': 'string' } )
string
A paginated token to offset the results.
integer
The maximum number of results to return.
dict
The filter criteria.
Name (string) --
The name of the ruleset filter criteria.
Description (string) --
The description of the ruleset filter criteria.
CreatedBefore (datetime) --
Filter on rulesets created before this date.
CreatedAfter (datetime) --
Filter on rulesets created after this date.
LastModifiedBefore (datetime) --
Filter on rulesets last modified before this date.
LastModifiedAfter (datetime) --
Filter on rulesets last modified after this date.
TargetTable (dict) --
The name and database name of the target table.
TableName (string) -- [REQUIRED]
The name of the Glue table.
DatabaseName (string) -- [REQUIRED]
The name of the database where the Glue table exists.
CatalogId (string) --
The catalog id where the Glue table exists.
dict
A list of key-value pair tags.
(string) --
(string) --
dict
Response Syntax
{ 'Rulesets': [ { 'Name': 'string', 'Description': 'string', 'CreatedOn': datetime(2015, 1, 1), 'LastModifiedOn': datetime(2015, 1, 1), 'TargetTable': { 'TableName': 'string', 'DatabaseName': 'string', 'CatalogId': 'string' }, 'RecommendationRunId': 'string', 'RuleCount': 123 }, ], 'NextToken': 'string' }
Response Structure
(dict) --
Rulesets (list) --
A paginated list of rulesets for the specified list of Glue tables.
(dict) --
Describes a data quality ruleset returned by GetDataQualityRuleset .
Name (string) --
The name of the data quality ruleset.
Description (string) --
A description of the data quality ruleset.
CreatedOn (datetime) --
The date and time the data quality ruleset was created.
LastModifiedOn (datetime) --
The date and time the data quality ruleset was last modified.
TargetTable (dict) --
An object representing an Glue table.
TableName (string) --
The name of the Glue table.
DatabaseName (string) --
The name of the database where the Glue table exists.
CatalogId (string) --
The catalog id where the Glue table exists.
RecommendationRunId (string) --
When a ruleset was created from a recommendation run, this run ID is generated to link the two together.
RuleCount (integer) --
The number of rules in the ruleset.
NextToken (string) --
A pagination token, if more results are available.
{'AdditionalDataSources': {'string': {'GlueTable': {'AdditionalOptions': {'string': 'string'}, 'CatalogId': 'string', 'ConnectionName': 'string', 'DatabaseName': 'string', 'TableName': 'string'}}}}
Once you have a ruleset definition (either recommended or your own), you call this operation to evaluate the ruleset against a data source (Glue table). The evaluation computes results which you can retrieve with the GetDataQualityResult API.
See also: AWS API Documentation
Request Syntax
client.start_data_quality_ruleset_evaluation_run( DataSource={ 'GlueTable': { 'DatabaseName': 'string', 'TableName': 'string', 'CatalogId': 'string', 'ConnectionName': 'string', 'AdditionalOptions': { 'string': 'string' } } }, Role='string', NumberOfWorkers=123, Timeout=123, ClientToken='string', AdditionalRunOptions={ 'CloudWatchMetricsEnabled': True|False, 'ResultsS3Prefix': 'string' }, RulesetNames=[ 'string', ], AdditionalDataSources={ 'string': { 'GlueTable': { 'DatabaseName': 'string', 'TableName': 'string', 'CatalogId': 'string', 'ConnectionName': 'string', 'AdditionalOptions': { 'string': 'string' } } } } )
dict
[REQUIRED]
The data source (Glue table) associated with this run.
GlueTable (dict) -- [REQUIRED]
An Glue table.
DatabaseName (string) -- [REQUIRED]
A database name in the Glue Data Catalog.
TableName (string) -- [REQUIRED]
A table name in the Glue Data Catalog.
CatalogId (string) --
A unique identifier for the Glue Data Catalog.
ConnectionName (string) --
The name of the connection to the Glue Data Catalog.
AdditionalOptions (dict) --
Additional options for the table. Currently there are two keys supported:
pushDownPredicate : to filter on partitions without having to list and read all the files in your dataset.
catalogPartitionPredicate : to use server-side partition pruning using partition indexes in the Glue Data Catalog.
(string) --
(string) --
string
[REQUIRED]
An IAM role supplied to encrypt the results of the run.
integer
The number of G.1X workers to be used in the run. The default is 5.
integer
The timeout for a run in minutes. This is the maximum time that a run can consume resources before it is terminated and enters TIMEOUT status. The default is 2,880 minutes (48 hours).
string
Used for idempotency and is recommended to be set to a random ID (such as a UUID) to avoid creating or starting multiple instances of the same resource.
dict
Additional run options you can specify for an evaluation run.
CloudWatchMetricsEnabled (boolean) --
Whether or not to enable CloudWatch metrics.
ResultsS3Prefix (string) --
Prefix for Amazon S3 to store results.
list
[REQUIRED]
A list of ruleset names.
(string) --
dict
A map of reference strings to additional data sources you can specify for an evaluation run.
(string) --
(dict) --
A data source (an Glue table) for which you want data quality results.
GlueTable (dict) -- [REQUIRED]
An Glue table.
DatabaseName (string) -- [REQUIRED]
A database name in the Glue Data Catalog.
TableName (string) -- [REQUIRED]
A table name in the Glue Data Catalog.
CatalogId (string) --
A unique identifier for the Glue Data Catalog.
ConnectionName (string) --
The name of the connection to the Glue Data Catalog.
AdditionalOptions (dict) --
Additional options for the table. Currently there are two keys supported:
pushDownPredicate : to filter on partitions without having to list and read all the files in your dataset.
catalogPartitionPredicate : to use server-side partition pruning using partition indexes in the Glue Data Catalog.
(string) --
(string) --
dict
Response Syntax
{ 'RunId': 'string' }
Response Structure
(dict) --
RunId (string) --
The unique run identifier associated with this run.
{'JobUpdate': {'CodeGenConfigurationNodes': {'EvaluateDataQualityMultiFrame': {'AdditionalDataSources': {'string': 'string'}, 'AdditionalOptions': {'performanceTuning.caching': 'string'}, 'Inputs': ['string'], 'Name': 'string', 'PublishingOptions': {'CloudWatchMetricsEnabled': 'boolean', 'EvaluationContext': 'string', 'ResultsPublishingEnabled': 'boolean', 'ResultsS3Prefix': 'string'}, 'Ruleset': 'string', 'StopJobOnFailureOptions': {'StopJobOnFailureTiming': 'Immediate ' '| ' 'AfterDataLoad'}}}}}
Updates an existing job definition. The previous job definition is completely overwritten by this information.
See also: AWS API Documentation
Request Syntax
client.update_job( JobName='string', JobUpdate={ 'Description': 'string', 'LogUri': 'string', 'Role': 'string', 'ExecutionProperty': { 'MaxConcurrentRuns': 123 }, 'Command': { 'Name': 'string', 'ScriptLocation': 'string', 'PythonVersion': 'string' }, 'DefaultArguments': { 'string': 'string' }, 'NonOverridableArguments': { 'string': 'string' }, 'Connections': { 'Connections': [ 'string', ] }, 'MaxRetries': 123, 'AllocatedCapacity': 123, 'Timeout': 123, 'MaxCapacity': 123.0, 'WorkerType': 'Standard'|'G.1X'|'G.2X'|'G.025X'|'G.4X'|'G.8X', 'NumberOfWorkers': 123, 'SecurityConfiguration': 'string', 'NotificationProperty': { 'NotifyDelayAfter': 123 }, 'GlueVersion': 'string', 'CodeGenConfigurationNodes': { 'string': { 'AthenaConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'ConnectionTable': 'string', 'SchemaName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'JDBCConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'FilterPredicate': 'string', 'PartitionColumn': 'string', 'LowerBound': 123, 'UpperBound': 123, 'NumPartitions': 123, 'JobBookmarkKeys': [ 'string', ], 'JobBookmarkKeysSortOrder': 'string', 'DataTypeMapping': { 'string': 'DATE'|'STRING'|'TIMESTAMP'|'INT'|'FLOAT'|'LONG'|'BIGDECIMAL'|'BYTE'|'SHORT'|'DOUBLE' } }, 'ConnectionTable': 'string', 'Query': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorSource': { 'Name': 'string', 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'RedshiftSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string' }, 'S3CatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'S3CsvSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'Separator': 'comma'|'ctrla'|'pipe'|'semicolon'|'tab', 'Escaper': 'string', 'QuoteChar': 'quote'|'quillemet'|'single_quote'|'disabled', 'Multiline': True|False, 'WithHeader': True|False, 'WriteHeader': True|False, 'SkipFirst': True|False, 'OptimizePerformance': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3JsonSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'gzip'|'bzip2', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'JsonPath': 'string', 'Multiline': True|False, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3ParquetSource': { 'Name': 'string', 'Paths': [ 'string', ], 'CompressionType': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'Exclusions': [ 'string', ], 'GroupSize': 'string', 'GroupFiles': 'string', 'Recurse': True|False, 'MaxBand': 123, 'MaxFilesInBand': 123, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'RelationalCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'DynamoDBCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'JDBCConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectionTable': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkConnectorTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'ConnectionName': 'string', 'ConnectorName': 'string', 'ConnectionType': 'string', 'AdditionalOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'RedshiftTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string', 'RedshiftTmpDir': 'string', 'TmpDirIAMRole': 'string', 'UpsertRedshiftOptions': { 'TableLocation': 'string', 'ConnectionName': 'string', 'UpsertKeys': [ 'string', ] } }, 'S3CatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3GlueParquetTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'snappy'|'lzo'|'gzip'|'uncompressed'|'none', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'S3DirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'string', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'ApplyMapping': { 'Name': 'string', 'Inputs': [ 'string', ], 'Mapping': [ { 'ToKey': 'string', 'FromPath': [ 'string', ], 'FromType': 'string', 'ToType': 'string', 'Dropped': True|False, 'Children': {'... recursive ...'} }, ] }, 'SelectFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'DropFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'RenameField': { 'Name': 'string', 'Inputs': [ 'string', ], 'SourcePath': [ 'string', ], 'TargetPath': [ 'string', ] }, 'Spigot': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Topk': 123, 'Prob': 123.0 }, 'Join': { 'Name': 'string', 'Inputs': [ 'string', ], 'JoinType': 'equijoin'|'left'|'right'|'outer'|'leftsemi'|'leftanti', 'Columns': [ { 'From': 'string', 'Keys': [ [ 'string', ], ] }, ] }, 'SplitFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'Paths': [ [ 'string', ], ] }, 'SelectFromCollection': { 'Name': 'string', 'Inputs': [ 'string', ], 'Index': 123 }, 'FillMissingValues': { 'Name': 'string', 'Inputs': [ 'string', ], 'ImputedPath': 'string', 'FilledPath': 'string' }, 'Filter': { 'Name': 'string', 'Inputs': [ 'string', ], 'LogicalOperator': 'AND'|'OR', 'Filters': [ { 'Operation': 'EQ'|'LT'|'GT'|'LTE'|'GTE'|'REGEX'|'ISNULL', 'Negated': True|False, 'Values': [ { 'Type': 'COLUMNEXTRACTED'|'CONSTANT', 'Value': [ 'string', ] }, ] }, ] }, 'CustomCode': { 'Name': 'string', 'Inputs': [ 'string', ], 'Code': 'string', 'ClassName': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'SparkSQL': { 'Name': 'string', 'Inputs': [ 'string', ], 'SqlQuery': 'string', 'SqlAliases': [ { 'From': 'string', 'Alias': 'string' }, ], 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'DirectKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DirectKafkaSource': { 'Name': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'WindowSize': 123, 'DetectSchema': True|False, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKinesisSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'EndpointUrl': 'string', 'StreamName': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingPosition': 'latest'|'trim_horizon'|'earliest', 'MaxFetchTimeInMs': 123, 'MaxFetchRecordsPerShard': 123, 'MaxRecordPerRead': 123, 'AddIdleTimeBetweenReads': True|False, 'IdleTimeBetweenReadsInMs': 123, 'DescribeShardInterval': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxRetryIntervalMs': 123, 'AvoidEmptyBatches': True|False, 'StreamArn': 'string', 'RoleArn': 'string', 'RoleSessionName': 'string', 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'CatalogKafkaSource': { 'Name': 'string', 'WindowSize': 123, 'DetectSchema': True|False, 'Table': 'string', 'Database': 'string', 'StreamingOptions': { 'BootstrapServers': 'string', 'SecurityProtocol': 'string', 'ConnectionName': 'string', 'TopicName': 'string', 'Assign': 'string', 'SubscribePattern': 'string', 'Classification': 'string', 'Delimiter': 'string', 'StartingOffsets': 'string', 'EndingOffsets': 'string', 'PollTimeoutMs': 123, 'NumRetries': 123, 'RetryIntervalMs': 123, 'MaxOffsetsPerTrigger': 123, 'MinPartitions': 123, 'IncludeHeaders': True|False, 'AddRecordTimestamp': 'string', 'EmitConsumerLagMetrics': 'string' }, 'DataPreviewOptions': { 'PollingTime': 123, 'RecordPollingLimit': 123 } }, 'DropNullFields': { 'Name': 'string', 'Inputs': [ 'string', ], 'NullCheckBoxList': { 'IsEmpty': True|False, 'IsNullString': True|False, 'IsNegOne': True|False }, 'NullTextList': [ { 'Value': 'string', 'Datatype': { 'Id': 'string', 'Label': 'string' } }, ] }, 'Merge': { 'Name': 'string', 'Inputs': [ 'string', ], 'Source': 'string', 'PrimaryKeys': [ [ 'string', ], ] }, 'Union': { 'Name': 'string', 'Inputs': [ 'string', ], 'UnionType': 'ALL'|'DISTINCT' }, 'PIIDetection': { 'Name': 'string', 'Inputs': [ 'string', ], 'PiiType': 'RowAudit'|'RowMasking'|'ColumnAudit'|'ColumnMasking', 'EntityTypesToDetect': [ 'string', ], 'OutputColumnName': 'string', 'SampleFraction': 123.0, 'ThresholdFraction': 123.0, 'MaskValue': 'string' }, 'Aggregate': { 'Name': 'string', 'Inputs': [ 'string', ], 'Groups': [ [ 'string', ], ], 'Aggs': [ { 'Column': [ 'string', ], 'AggFunc': 'avg'|'countDistinct'|'count'|'first'|'last'|'kurtosis'|'max'|'min'|'skewness'|'stddev_samp'|'stddev_pop'|'sum'|'sumDistinct'|'var_samp'|'var_pop' }, ] }, 'DropDuplicates': { 'Name': 'string', 'Inputs': [ 'string', ], 'Columns': [ [ 'string', ], ] }, 'GovernedCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'GovernedCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'PartitionPredicate': 'string', 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123 } }, 'MicrosoftSQLServerCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string' }, 'MicrosoftSQLServerCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'MySQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'OracleSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'PostgreSQLCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Database': 'string', 'Table': 'string' }, 'DynamicTransform': { 'Name': 'string', 'TransformName': 'string', 'Inputs': [ 'string', ], 'Parameters': [ { 'Name': 'string', 'Type': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'ValidationRule': 'string', 'ValidationMessage': 'string', 'Value': [ 'string', ], 'ListType': 'str'|'int'|'float'|'complex'|'bool'|'list'|'null', 'IsOptional': True|False }, ], 'FunctionName': 'string', 'Path': 'string', 'Version': 'string', 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'EvaluateDataQuality': { 'Name': 'string', 'Inputs': [ 'string', ], 'Ruleset': 'string', 'Output': 'PrimaryInput'|'EvaluationResults', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } }, 'S3CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogHudiSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalHudiOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalHudiOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3HudiCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3HudiDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'Path': 'string', 'Compression': 'gzip'|'lzo'|'uncompressed'|'snappy', 'PartitionKeys': [ [ 'string', ], ], 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'DirectJDBCSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'ConnectionName': 'string', 'ConnectionType': 'sqlserver'|'mysql'|'oracle'|'postgresql'|'redshift', 'RedshiftTmpDir': 'string' }, 'S3CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'CatalogDeltaSource': { 'Name': 'string', 'Database': 'string', 'Table': 'string', 'AdditionalDeltaOptions': { 'string': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaSource': { 'Name': 'string', 'Paths': [ 'string', ], 'AdditionalDeltaOptions': { 'string': 'string' }, 'AdditionalOptions': { 'BoundedSize': 123, 'BoundedFiles': 123, 'EnableSamplePath': True|False, 'SamplePath': 'string' }, 'OutputSchemas': [ { 'Columns': [ { 'Name': 'string', 'Type': 'string' }, ] }, ] }, 'S3DeltaCatalogTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Table': 'string', 'Database': 'string', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG' } }, 'S3DeltaDirectTarget': { 'Name': 'string', 'Inputs': [ 'string', ], 'PartitionKeys': [ [ 'string', ], ], 'Path': 'string', 'Compression': 'uncompressed'|'snappy', 'Format': 'json'|'csv'|'avro'|'orc'|'parquet'|'hudi'|'delta', 'AdditionalOptions': { 'string': 'string' }, 'SchemaChangePolicy': { 'EnableUpdateCatalog': True|False, 'UpdateBehavior': 'UPDATE_IN_DATABASE'|'LOG', 'Table': 'string', 'Database': 'string' } }, 'AmazonRedshiftSource': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] } }, 'AmazonRedshiftTarget': { 'Name': 'string', 'Data': { 'AccessType': 'string', 'SourceType': 'string', 'Connection': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Schema': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'Table': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogDatabase': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogTable': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'CatalogRedshiftSchema': 'string', 'CatalogRedshiftTable': 'string', 'TempDir': 'string', 'IamRole': { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, 'AdvancedOptions': [ { 'Key': 'string', 'Value': 'string' }, ], 'SampleQuery': 'string', 'PreAction': 'string', 'PostAction': 'string', 'Action': 'string', 'TablePrefix': 'string', 'Upsert': True|False, 'MergeAction': 'string', 'MergeWhenMatched': 'string', 'MergeWhenNotMatched': 'string', 'MergeClause': 'string', 'CrawlerConnection': 'string', 'TableSchema': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ], 'StagingTable': 'string', 'SelectedColumns': [ { 'Value': 'string', 'Label': 'string', 'Description': 'string' }, ] }, 'Inputs': [ 'string', ] }, 'EvaluateDataQualityMultiFrame': { 'Name': 'string', 'Inputs': [ 'string', ], 'AdditionalDataSources': { 'string': 'string' }, 'Ruleset': 'string', 'PublishingOptions': { 'EvaluationContext': 'string', 'ResultsS3Prefix': 'string', 'CloudWatchMetricsEnabled': True|False, 'ResultsPublishingEnabled': True|False }, 'AdditionalOptions': { 'string': 'string' }, 'StopJobOnFailureOptions': { 'StopJobOnFailureTiming': 'Immediate'|'AfterDataLoad' } } } }, 'ExecutionClass': 'FLEX'|'STANDARD', 'SourceControlDetails': { 'Provider': 'GITHUB'|'AWS_CODE_COMMIT', 'Repository': 'string', 'Owner': 'string', 'Branch': 'string', 'Folder': 'string', 'LastCommitId': 'string', 'AuthStrategy': 'PERSONAL_ACCESS_TOKEN'|'AWS_SECRETS_MANAGER', 'AuthToken': 'string' } } ) **Parameters** :: # This section is too large to render. # Please see the AWS API Documentation linked below. `AWS API Documentation <https://docs.aws.amazon.com/goto/WebAPI/glue-2017-03-31/UpdateJob>`_
dict
Response Syntax
{ 'JobName': 'string' }
Response Structure
(dict) --
JobName (string) --
Returns the name of the updated job definition.