Cos'è la colla AWS

Cos'è la colla AWS
AWS Glue è un servizio di calcolo di integrazione dei dati AWS che aiuta a spostare i set di dati tra i servizi per prepararli per l'analisi. I set di dati archiviati nei servizi di archiviazione Amazon come S3 vengono trasferiti ai servizi che analizzano set di dati come AWS Athena. La funzione principale della colla AWS è creare lavori ETL (estratto, trasformazione e carico). I lavori ETL estraggono i dati dai database di un particolare servizio e quindi modificano i dati in un altro luogo in cui è necessario essere analizzati.

Durante l'utilizzo di lavori ETL, gli utenti possono anche creare e monitorare le pipeline di dati attraverso le quali vengono trasferiti i dati estratti. AWS Glue si integra con servizi come Amazon S3, Amazon DynamoDB, Amazon Redshift e Amazon RDS per estrarre e spostare i dati.

Questo articolo descriverà i seguenti aspetti della colla AWS:

  • Quali sono i componenti della colla AWS?
  • Qual è l'importanza della colla AWS?
  • Come usare la colla AWS?

Quali sono i componenti della colla AWS?

Di seguito sono riportati alcuni componenti della colla AWS che lavorano in coordinamento per svolgere vari compiti:

Console di colla AWS: La console di colla AWS definisce il flusso di lavoro ETL e chiama le operazioni API in altri componenti di colla AWS per eseguire attività diverse come la corsa e la pianificazione dei crawler, la creazione di tabelle, la configurazione delle connessioni, ecc.

Catalogare: Catalogo dati AWS GLUE è il negozio di metadati della nuvola AWS. In ogni account AWS, ogni regione AWS ha già creato un catalogo dati di colla. Nei cataloghi dei dati, le tabelle contenenti dati di diversi servizi come AWS RDS sono archiviate in forma organizzata.

Crawler e classificatori: I crawler possono scansionare i dati da tutti i tipi di repository su AWS. Attraverso i crawler, gli utenti possono creare database per organizzare le tabelle di dati dei dati estratti nella colla AWS in modo che i dati appaiano puliti e organizzati.

Operazioni ETL: L'utente può "estrarre" i dati da un servizio e "trasformare" i dati (ad esempio, estrarre dati grezzi e trasformarli in una forma pulita classificandoli in diversi set di dati) e quindi "caricare" i dati o effettuare tali dati accessibili per i servizi che mettono e analizzano i dati.

Lavori ETL: AWS GLE ETL Jobs Gestisci flusso di lavoro ETL attraverso alcune configurazioni. Gli utenti possono pianificare i lavori ETL al flusso di dati e attivare il lavoro su eventi specifici come quando vengono spostati nuovi dati, una tabella di dati viene eliminata, ecc.

Qual è l'importanza della colla AWS?

La colla AWS è popolare per vari motivi, tra cui i seguenti:

  • La colla AWS è facile da usare e conveniente rispetto ad altre piattaforme che forniscono la stessa funzionalità.
  • Gli utenti possono connettersi a oltre settanta origini di dati diverse utilizzando AWS Glue.
  • Fornisce un catalogo di dati centralizzati per gestire il processo ETL per estrarre, gestire e passare ai laghi di dati.
  • AWS Glue è un servizio senza server, quindi non è necessario impostare, gestire e mantenere i server.

Come usare la colla AWS?

L'uso della colla AWS è molto semplice. Apri il servizio "AWS Glue" dopo aver effettuato l'accesso alla console AWS. Nel menu sul lato sinistro della console di colla AWS, ci sarà un elenco di opzioni che rendono più comprensibile la funzionalità del servizio di colla AWS. L'utente può eseguire qualsiasi lavoro ETL (estratto, trasforma e carico) nella colla AWS:

Ad esempio, selezioniamo l'opzione "database" per creare un database nella colla AWS o accedere a un database creato in qualsiasi altro servizio AWS:

Allo stesso modo, gli utenti possono creare crawler in AWS:

Se apriamo i dettagli di uno qualsiasi dei crawler creati, visualizza la sua fonte di dati. Qui, è chiaro che i dati si accedono da un secchio creato nel servizio AWS S3:

Spiegato sopra era tutto sulla colla, i suoi componenti, l'importanza e l'uso.

Conclusione

AWS Glue è il servizio di integrazione dei dati senza server di AWS che sposta i dati tra servizi AWS, applicazioni e componenti software. I dati vengono prima estratti e quindi trasferiti dopo la modifica in un altro servizio in modo efficiente utilizzando AWS Cloud Resources. Anche questo servizio AWS affidabile e scalabile è facile da usare ed è preferito su altre piattaforme con le stesse funzionalità a causa delle sue caratteristiche vaste e utilizzabili e efficacia in termini di costi.