AWS Glue

L’integrazione dei dati sta diventando sempre più cruciale nelle architetture IT moderne. La trasformazione digitale necessita di connessioni sempre più strette tra un numero sempre crescente di applicazioni e questo comporta una sfida sempre maggiore per governare e efficientare i processi di integrazione.

Contatti di riferimento

Andrea Gioia

Chief Technology Officer

Giandomenico Avelluto

Strategy Advisor

Overview

AWS Glue consolida le principali funzionalità di integrazione dei dati in un singolo servizio serverless. Le funzionalità principali includono:

Data Classification

Funzione che tramite crawlers permette di determinare lo schema tecnico dei dati. AWS Glue fornisce classificatori per i tipi di file più comuni, ad esempio CSV, JSON, XML, AVRO. Fornisce inoltre classificatori per i più comuni sistemi di gestione di database relazionali utilizzando una connessione JDBC.

Data Catalog

Archivio di metadati persistente: il catalogo contiene definizioni di tabelle, definizioni di processi e altre informazioni di controllo per la gestione delle entità dati in AWS.

ETL/ELT

AWS Glue Jobs system fornisce un’infrastruttura gestita per la definizione, la pianificazione e l’esecuzione di operazioni ETL/ELT sui dati al fine di prepararli e consolidarli e permetterne l’analisi.

Streaming Processing

È possibile, oltre alle modalità batch, creare operazioni di streaming processing che vengono eseguite continuamente, ad esempio consumando dati da Apache Kafka, Amazon Kinesis Data Streams e Amazon Managed Streaming for Apache Kafka (Amazon MSK).

Utilizzando il componente AWS Glue Studio, tramite un’interfaccia grafica sarà possibile creare, eseguire e monitorare i processi di integrazione dati. AWS Glue Studio permette di comporre visivamente i flussi di trasformazione dei dati ed eseguirli con facilità sul motore ETL serverless basato su Apache Spark.

AWS Glue rappresenta lo strumento ideale per poter eseguire in modo efficiente data pipelines in AWS. Grazie alla sua natura serveless permette di ottimizzare i costi e utilizzare un modello di billing pay-as-you-go che permette di partire a utilizzare lo strumento senza costi upfront.

In Quantyca abbiamo sviluppato librerie che estendono le funzionalità di Glue come ad esempio librerie di tracing e logging custom che permettono di ottenere informazioni aggiuntive sulle esecuzioni e integrarsi con tool esterni di monitoraggio come Elasticserch.

Partnership

In qualità di partner AWS, portiamo la nostra esperienza nei processi di gestione dei dati nel cloud, sfruttando la flessibilità, la scalabilità e l’affidabilità del servizio AWS Glue.

I nostri servizi di consulenza:

Consulenza per l’avvio di nuovi progetti Cloud Native
Valutazione di soluzioni esistenti e migrazioni di piattaforme dati
Progettazione e implementazione di landing zone di gestione dei dati per la gestione di più conti e più regioni
Supporto nello sviluppo di pipeline di integrazione dei dati
Manutenzione degli ambienti Cloud