Quando gli utenti creano lavori ETL e crawler in colla AWS, devono specificare e dichiarare la posizione target per i dati e l'origine dati, rispettivamente. Ciò significa che la colla AWS non può essere utilizzata da sola, ma l'utente deve archiviare i dati in servizi di archiviazione come secchi S3 e quindi rendere i dati accessibili per il servizio di colla AWS. Gli utenti possono anche creare database, tabelle, schemi, connessioni, ecc., nella colla AWS.
Questo articolo spiegherà il processo di utilizzo della colla AWS in semplici passaggi.
Come usare la colla AWS?
Per comprendere l'uso della colla AWS, prima, accedi alla console AWS e quindi cerca la colla AWS nei servizi AWS.
Nella primissima interfaccia di AWS Glue, ci sarà un menu sul lato sinistro che conterrà l'elenco di tutte le possibili attività che possono essere eseguite usando la colla AWS, come crawler, database, tabelle, schemi, ecc.
Se facciamo clic sul pulsante "Inizia", l'interfaccia successiva visualizzerà tre diverse attività, i.e., Visualizza i lavori, visualizza il monitoraggio e visualizza i connettori.
Per creare lavori in colla AWS, l'utente deve prima configurare il lavoro in base ai dettagli, come la posizione di secchi S3, oggetti, cartelle e cluster AWS. Quindi, per usare la colla AWS. È necessario archiviare alcuni file sul servizio di archiviazione S3 di AWS.
Crea un secchio S3
Innanzitutto, visita il servizio "Amazon S3" di AWS e crea un nuovo secchio S3 lì.
Crea cartelle nel secchio
Dopo aver creato un nuovo secchio S3 in Amazon S3, crea una cartella aprendo i dettagli del secchio e quindi facendo clic su "Crea cartella".
Basta fornire un nome alla cartella:
In questo modo, la cartella viene creata.
Ora, crea un'altra cartella nel secchio.
Carica oggetti
Ora vai su "Oggetti" e fai clic sul pulsante "Carica". Sfoglia i file dal sistema che dovrebbero essere caricati nel bucket Amazon S3 di recente creazione.
Il messaggio di successo nella parte superiore dell'interfaccia verifica che gli oggetti selezionati dal sistema vengano caricati correttamente nel bucket AWS S3.
Open AWS Glue
Dopo aver caricato oggetti e aggiunto cartelle nel secchio S3, l'utente può eseguire attività sulla colla AWS. Cerca e apri il servizio di colla AWS dai servizi di AWS.
Crea crawler
Ci sarà un menu sul lato sinistro contenente i nomi di tutte le attività eseguite sulla colla AWS. Seleziona l'opzione "Crawlers" dal menu dato e crea un crawler.
Digita un nome per il crawler.
Seleziona il secchio appena creato come percorso S3 del cingolato in modo che questo crawler possa accedere a quel secchio:
Dichiarare il database di destinazione selezionando uno dei database creati nella colla AWS o crea un nuovo database e quindi selezionalo:
Dopo aver configurato tutto ciò che è necessario per creare un crawler, fare clic sul pulsante "Crea crawler":
Dopo che il crawler è stato creato, fai clic sul pulsante "Run Crawler" per rendere attiva il crawler:
Crea un lavoro ETL
Seleziona l'opzione "Jobs" dal menu sul lato sinistro:
Questo era tutto su come usare la colla AWS.
Conclusione
AWS Glue è un servizio AWS senza server che estrae i dati da altri servizi AWS come secchi S3. Ci possono essere cluster, database, lavori, ecc., Creato in colla AWS. Uno dei principali compiti della colla AWS è creare lavori ETL. Dopo aver memorizzato alcuni file sui servizi di archiviazione AWS, è possibile creare lavori ETL configurando i dettagli del lavoro in modo tale da poter accedere ai file.