“I valori separati da virgola (CSV) sono uno dei formati di dati più versatili e di facile utilizzo. È un formato di dati leggero che consente agli sviluppatori e alle applicazioni di trasferire e analizzare i dati da una fonte a un'altra.
I dati CSV memorizza i dati in un formato tabulare in cui ogni colonna è separata da una virgola e un nuovo record viene assegnato a una nuova linea. Questo lo rende un'ottima scelta per l'esportazione di database come database SQL, dati Cassandra e altro ancora.
Pertanto, non sorprende che incontrerai uno scenario in cui è necessario importare un file CSV nel tuo database.
L'obiettivo di questo tutorial è mostrarti un metodo rapido e semplice per importare un file CSV nel cluster ElaSticSearch utilizzando la dashboard di kibana."
Saltiamo.
Requisiti
Prima di immergerti, assicurati di avere i seguenti requisiti:
Esempio di file CSV
Come al solito, il primo requisito è il tuo file CSV di origine. È bene assicurarsi che i dati nel tuo file CSV siano ben formattati e che non contengano errori.
A fini illustrativi, useremo un set di dati gratuito che contiene film e programmi TV di Amazon Prime.
Apri il browser e vai alla risorsa di seguito:
https: // www.Kaggle.com/set di dati/shivamb/amazon-prime-movies-and-tv-show
Segui la procedura per scaricare il set di dati sulla macchina locale. Puoi estrarre l'archivio scaricato con il comando:
$ unzip a ~/downloads/rchive.cerniera lampo
Importa file CSV
Una volta pronto il tuo file di origine, possiamo procedere e discutere come importarlo.
Inizia andando alla dashboard di Kibana Home e selezionando l'opzione "Carica un file".
Individua il file CSV di destinazione che si desidera importare nella finestra di avvio.
Seleziona il tuo file di origine e fai clic su Carica.
Consenti a ElaSticSearch e Kibana di analizzare il file caricato. Ciò analizzerà il file CSV e determinerà il formato dei dati, i campi, i tipi di dati, ecc.
Nota: a seconda della configurazione del cluster e della dimensione dei dati, questo processo può richiedere del tempo. Assicurarsi che il nodo principale stia rispondendo per evitare i timeout.
Una volta completato il processo, è necessario ottenere un campione del contenuto del file e delle statistiche del file analizzate da Elastic.
È possibile personalizzare numerosi parametri, ad esempio il delimitatore, file di intestazione, ecc. Ad esempio, possiamo personalizzare l'output sopra per dire a Elastic che il nostro file CSV contiene file di intestazione.
Possiamo quindi fare clic su Applicare e analizzare nuovamente i dati. Ciò dovrebbe formattare i dati nel formato corretto, inclusi i campi.
Successivamente, possiamo fare clic su importazione per procedere alla dashboard importata.
Qui, dobbiamo creare un indice in cui vengono archiviati i dati CSV. Puoi allocare qualsiasi nome supportato al tuo indice.
Se desideri personalizzare le proprietà dell'indice, come il numero di frammenti, repliche, mappature, ecc. Seleziona l'opzione avanzata e modifica le tue impostazioni come il tuo cuore desidera.
Infine, fai clic su Importa e guarda mentre Kibana fa la sua "magia". Una volta completato, è possibile accedere al tuo indice tramite Elasticsearch API o utilizzare la dashboard Kibana.
E hai finito!!
Conclusione
In questo post, abbiamo trattato il processo di recupero e importazione del set di dati CSV nel cluster ElasticSearch utilizzando la dashboard Kibana.
Grazie per la lettura e la codifica felice!!